Парсинг данных: перейдем к юридической стороне
02.07.2021
В связи с недавними скандалами с данными в Facebook и вступлением в силу закона о GDPR может возникнуть вопрос: «Законно ли сканирование в Интернете?»
Каждому бизнесу, будь то стартап, магазин электронной коммерции или любой другой поставщик услуг, нужен доступ к ценным данным.
Конечно, доступ к ограниченным, частным и несанкционированным данным является неправильным и всегда будет незаконным. Но как насчет общедоступных данных в Интернете, которые доступны всем желающим?
Такие данные, как:
- Список товаров ваших конкурентов на их веб-сайтах.
- Цены на товары, выставленные в различных магазинах электронной коммерции.
- Публичные обзоры, в которых упоминается ваш собственный бизнес, которые должны быть заметны.
Если вы хотите собирать такие данные, законны ли они?
К сожалению, ответ непростой: да или нет.
Чтобы понять всю картину того, что делает услуги парсинга данных законными или незаконными, нам сначала нужно быстро взглянуть на то, что на самом деле представляет собой сбор данных.
Введение в парсинг данных
Сбор данных — это процесс загрузки данных веб-страницы и извлечения из нее конкретной информации.
Например, предположим, что вы хотите запустить собственную службу потоковой передачи фильмов. Для этого вам понадобятся такие данные, как биография фильма, список актеров, год его выпуска, его рейтинг и т. д..
Но с момента появления на свет были выпущены миллионы фильмов.
Чем ты планируешь заняться? Напишите вручную биографию, список исполнителей и год выпуска, набрав информацию или скопировав ее самостоятельно?
Вы можете легко использовать службу парсинга веб-страниц, чтобы извлечь эти данные из общедоступного источника и автоматизировать процесс добавления этой информации в службу потоковой передачи фильмов.
Это означает, что служба очистки данных просто копирует данные из существующего источника в файл или базу данных по вашему выбору.
В этом вся его цель. Чтобы скопировать и вставить данные из одного источника в другой.
Почему парсинг данных обвиняют в незаконности?
Как и все остальное в мире, сканирование данных может быть использовано в злонамеренных и неэтичных целях.
Вот несколько способов, как это сделать:
- Его можно использовать для доступа и получения личных, неавторизованных данных, которые не являются общедоступными.
- Сканирование данных, как правило, может выполняться без разрешения владельца данных и при полном нарушении условий использования веб-сайта.
- Парсеры данных могут сильно нагружать серверы веб-сайта, запрашивая данные чаще, чем это делает человек.
Если вы хотите знать, какие данные не разрешено собирать, вот список причин, по которым компания по парсингу данных может отказать вам в своих услугах:
- Если данные защищены авторским правом. Если данные представляют собой творческую работу, то, как правило, именно формат, в котором представлены данные, защищен авторским правом. Если вы парсите «факты» из работы и представляете ее оригинальным образом, это разрешено и не приведет к судебному преследованию.
- Если владелец защищает данные: вы не можете получить собранные данные, которые защищены некоторыми цифровыми препятствиями, такими как имя пользователя / пароль или код доступа. Сбор таких данных может привести к судебному разбирательству.
- Если в TOS прямо указано, что вы не можете очищать данные: если веб-сайт написал в соответствии с условиями обслуживания, что сбор данных запрещен, вы рискуете быть оштрафованным за сбор этих данных, поскольку он выполняется без разрешение собственника.
Комментарии