Широкое использование веб-парсеров в исследованиях
21.06.2021
В мире, где информация распространяется со скоростью света через Интернет, становится невероятно сложно не только отслеживать все это, но и отличать правдивые данные от ложных. Именно тогда на первый план выходит парсинг веб-страниц, который помогает вам и значительно упрощает решение проблемы. Парсинг особенно эффективен, когда дело доходит до исследований, поскольку он помогает собирать точные и отфильтрованные данные.
Веб-парсеры и исследования
На основе данных, собранных в результате парсинга веб-страниц, было проведено огромное количество исследований. Эти исследования проводились по ряду различных тем и дали интересную статистическую информацию и продуктивные результаты.
Ниже мы выбрали несколько известных исследований, чтобы показать, как извлеченные данные могут быть использованы для исследования:
Селфи из Tinder и эксперименты с искусственным интеллектом
Пользователям Tinder никогда не приходило в голову, что когда-нибудь их селфи, предназначенные для привлечения потенциального партнера, будут использованы в исследовании с использованием парсинга, точнее для создания набора данных по лицам для экспериментов с ИИ. Исследование было проведено Стюартом Колианни, который спарсил 40 000 фотографий профилей.
Набор данных называется People of Tinder. Колианни объясняет свой выбор Tinder для этого эксперимента тем, что Tinder предлагает легкий доступ к тысячам людей, находящимся поблизости, что является истинным источником создания набора данных о лицах. По его словам, данный эксперимент стал возможным благодаря парсингу веб-страниц.
Многие разочарования, которые он испытал при создании других наборов данных по лицам из-за их слишком ограниченной структуры, побудили его найти другие пути для успешного исследования. Огромный объем данных, доступных в Tinder, пригодился, учитывая тот факт, что их можно было легко собирать и фильтровать с помощью веб-парсинга.
Меню ресторана составлено для исследовательских целей
Веб-парсинг оказался полезным даже в ресторанном бизнесе. В Интернете доступно огромное количество данных о различных ресторанах, их меню, блюдах, которые они предлагают, и т. д. Эта информация является отличным источником для исследования.
Существует множество сайтов, таких как Yelp , Urbanspoon и Zomato, которые дают представление о различных ресторанах и их меню. Однако Даниэлю Эпштейну — предпринимателю и путешественнику и этого оказалось мало. Ему нужна была поисковая система, в которой можно было бы ввести название продукта и увидеть такую информацию о нем, как цены, местонахождение и другие детали. Поэтому он решил провести собственное исследование с помощью парсинга.
Собирая данные меню, он получил их цены и детали и, конечно же, рестораны (вместе с их местоположением), которые предлагали эти блюда. В конце концов, отфильтровав ненужные пункты, он получил список из почти 500 000 блюд меню. Большинство последних было «расположено» на Манхэттене, Нью-Йорк.
Эта информация позволила ему создать индивидуальное приложение, которое позволяет пользователю фильтровать меню не только по кухне, но также по ингредиентам и даже по способу приготовления.
Парсинг Billboard Hot 100
Майкл Кинг решил использовать Billboard Hot 100, чтобы изучить способы ранжирования поп-музыкантов на протяжении многих лет и их общие закономерности. Чарт Billboard Hot 100 был создан в 1958 году и имеет богатую историю рейтингов синглов. Объем данных огромен, но управляем — всего около 400 000 записей.
Итак, в результате извлечения данных из диаграммы мы можем выделить несколько методов, с помощью которых можно измерить успех отдельного случая:
- Первый — подразумевает нахождение области, в которой данный сингл был в топ-10
- Далее следует экспоненциальный метод — в этом случае для данного сингла выбирается определенное значение, в соответствии с которым проводится ранжирование. В результате каждый сингл оценивается каждую неделю с помощью этого значения, и в конечном итоге общий балл сингла суммируется за все недели, в течение которых он находился в таблице. Результаты выставления оценок также можно использовать для измерения карьеры певца и определения того, насколько успешной она была и какие изменения претерпели за эти годы
Как видите, с точки зрения исследований, сбор данных может быть очень эффективным методом для достижения необходимых или ожидаемых результатов.
Веб-парсеры с точки зрения законности
Сбор данных для различных целей с веб-сайтов может быть деликатным вопросом с юридической стороны. Закон о том, как компании собирают, хранят и используют данные своих пользователей, вступил в силу 25 мая 2018 года — это закон о конфиденциальности Европейского Союза, называемый Общим регламентом защиты данных (GDPR) .
Закон направлен на безопасность всех сторон процесса сбора данных и поможет вам избежать любых возможных юридических проблем в будущем. Чтобы помочь вам понять, к чему может привести неправильное использование данных, мы собрали несколько примеров судебных исков или попыток судебных споров против людей, которые использовали данные веб-сайта в целях эксплуатации:
- Правовые претензии OkCupid: Трое датских исследователей собрали информацию о почти 70 000 пользователей сайта знакомств OkCupid. После того, как они опубликовали данные, стало очевидно, что ни владельцы OkCupid, ни его пользователи не знали, что их личная информация (включая имена пользователей, возраст, пол, религию, личностные качества, ответы на различные личные вопросы) станет общедоступной. Это было очевидным нарушением этики исследований в области социальных наук. Несмотря на то, что настоящее имя не разглашается, любой, кто владеет вышеуказанной информацией, может иметь достаточно улик для выяснения их личности. Команда OkCupid уже упоминала, что исследователи нарушили закон и они уже принимают судебные меры против инцидента.
- Правовые претензии Tinder: в результате исследования, в ходе которого использовались 40 000 фотографий профилей пользователей Tinder без их согласия, Tinder собирается предпринять судебные иски, поскольку он объявил действия, предпринятые в целях этого исследования, нарушением своих условий использования.
Было много других примеров, когда судебные иски подавались из-за нарушения прав владельцев сайтов. Это доказывает тот факт, что при извлечении данных с веб-сайта нужно соблюдать осторожность — всегда учитывайте права владельца веб-сайта!
Однако, если вы доверяете весь процесс парсинга специализированным компаниям, как наша, вам не придется беспокоиться о каких-либо проблемах с законностью. Команда Scanhub справятся с этим и предоставят вам безопасный и надежный сбор данных, который не нарушает и не наносит ущерба чьим-либо правам.
Если вы планируете провести собственное исследование и не знаете, с чего начать сбор данных, учитывая объем информации, доступной в Интернете, просто доверьте этот процесс нашей команде. Это позволит вам сосредоточиться на более важных частях вашего исследования, имея под рукой нужные данные.
Комментарии