Поисковая система Google персонализирует результаты поисковых запросов, даже если пользователь вышел из аккаунта Google и использует приватный режим браузера (режим инкогнито), показало исследование, проведенное другим поисковым сервисом DuckDuckGo. Значительные различия для одних и тех же запросов, введенных разными людьми, также коснулись поля новостей в выдаче. Исходные данные исследования, а также код для их анализа опубликованы на GitHub.
Многие современные интернет-сервисы собирают большое количество информации о своих пользователях, и используют ее разными способами. Главный из них — персонализация сервиса для адаптация под интересы конкретного человека. Самое заметное проявление такого подхода — таргетированная реклама, показывающая товары и услуги, которые, по мнению алгоритмов, наиболее близки к интересам пользователя. Однако у персонализации есть еще один аспект, который уже не так заметен, и поэтому вызывает опасения исследователей. Поисковые сервисы, социальные сети, и другие сайты, зачастую персонализируют и основную информацию, такую как результаты поиска или записи пользователей.
Такой подход вызывает опасения некоторых специалистов из-за возможности образования «пузыря фильтров». Под этим термином подразумевается ситуация, при которой сервис постепенно начинает выдавать пользователю все больше информации, соответствующей его интересам и убеждениям, и все меньше информации, содержащей другую точку зрения на одни и те же события. В результате, в некоторых случаях картина мира, воспринимаемая человеком через интернет, может сильно отличаться от реальности, причем для каждого эта картина будет своей.
Одно из очевидных решений этой проблемы — поиск информации через приватный режим, не содержащий данных о посещении других страниц в интернете. Новое исследование показало, что в случае с поиском через Google этот метод не так эффективен, как считалось ранее. Стоит отметить, что исследование проведено компанией DuckDuckGo, основной бизнес которой связан с одноименным поисковым сервисом. Кроме того, методология исследования содержит в себе спорные моменты. К примеру, компания отобрала всего 87 добровольцев, прямо сказав в твиттере о наборе людей для исследования «пузыря фильтров» в Google:
Hi all! We're looking for volunteers on Sunday pm to help examine the extent of Google's filter bubble, i.e. how much results are tailored. If you'd like to help and are:
* In the US
* Able to take screenshots
* Happy to answer questions
please email "hi" to [email protected]
Добровольцев попросили ввести в поисковую строку Google три запроса по остросоциальным темам: контроль оборота оружия (gun control), иммиграция (immigration) и вакцинации (vaccinations). Сначала участники вводили эти запросы в приватном режиме браузера и будучи не авторизованными в Google, а затем в обычном режиме.
В результате исследователи получили не идентичные результаты для всех участников, а 62 разных набора ссылок (с учетом их порядка на странице). Авторы исключили возможность влияния времени поиска тем, что все добровольцы проходили эксперимент одновременно. Кроме того, они проанализировали влияние местоположения. В поисковых запросах практически не было ссылок на локальные ресурсы, специфичные для конкретного города или штата. Поскольку на одной странице поисковика обычно отображается десять результатов, исследователи ожидали увидеть столько же доменов, однако среди всех участников доменов было около 20, что также показывает различие выдачи.
Вариация в выдаче коснулась и полей с новостями и видео. К примеру, по запросу об иммиграции люди увидели разные варианты новостей, причем самый популярный набор новостей по теме увидели только 46 процентов добровольцев. Кроме того, исследователи сравнили уровень вариативности результатов в приватном и обычных режимах, и выяснили, что он слабо различается. Исходные данные исследования и код для их анализа опубликованы на GitHub.
В 2017 году группа американских исследователей показала, что рекламные сети в интернете могут быть использованы для отслеживания конкретных людей, причем не только владельцем сети, но и сторонними людьми и организациями. В рамках эксперимента они создали множество объявлений, таргетированных на конкретный идентификатор пользователя и на определенные местоположения. В результате им удалось составить карту перемещений конкретного человека по городу.
Григорий Копиев
Она поможет написать письмо, план тренировки или сочинит историю
Яндекс обучил большую русскоязычную языковую модель YandexGPT и внедрил ее в своего виртуального помощника Алису. Сейчас нейросеть тестируют пользователи продуктов Яндекса, новость об этом вышла на сайте компании. Языковая модель — это нейросеть, которая умеет генерировать тексты, по очереди предсказывая каждое слово в предложении. Языковая модель YandexGPT основана на архитектуре Transformer, которую создали исследователи из Google в 2017 году. Когда в такую нейросеть загружают текст, она умеет выделять в нем важные слова и фокусировать на них внимание. Главный навык модели — хорошо понимать и запоминать тексты, и генерировать новые. Когда нейросеть осваивает этот навык, она одновременно естественным образом учится выполнять самые разные задачи, связанные с анализом текстов. Большие языковые модели основаны на архитектуре Transformer и обучены на огромном количестве данных, обычно из интернета. Они умеют создавать текст, почти не отличимый от человеческой речи. Первой успешной моделью такого типа стала нейросеть GPT от компании OpenAI. В 2022 вышла улучшенная версия модели ChatGPT. Ее не просто натренировали на большом количестве данных, но и дообучили с помощью обучения с подкреплением. Люди-эксперты работали с нейросетью в режиме диалога, показывая ей как правильно отвечать на вопросы. В надежде повторить успех ChatGPT, многие компании обучают свои языковые модели-аналоги (например, Bard от Google или Poe от Quora). Яндекс первым внедрил такую модель в виртуального помощника. 17 мая Яндекс выпустил большую языковую модель YandexGPT в открытый доступ. С ней можно пообщаться через Алису в приложении Яндекс, браузере, умной колонке или телевизоре. Чтобы активировать YandexGPT, нужно сказать: «Алиса, давай придумаем!» Языковая модель пока находится в режиме тестирования, но уже умеет выполнять разные задачи пользователей: выбрать подарок, составить план тренировки или написать деловое письмо. Модель умеет составлять грамотные содержательные тексты, но может ошибаться в фактах. Посмотрите, как пользователи общаются с YandexGPT: Нейросеть обучали на суперкомпьютерах Яндекса в два этапа. Сначала разработчики отобрали для обучения много книг, статей и страниц сайтов с помощью поисковых инструментов Яндекса — по утверждению компании, в выборку попадали только содержательные и хорошо написанные тексты. На втором этапе модель дообучили, чтобы она лучше вела диалог. Для этого Яндекс воспользовался методом, который придумали исследователи из OpenAI. Эксперты-разметчики составили сотни тысяч пар вопрос-ответ и показывали их YandexGPT на втором этапе обучения. Но у YandexGPT есть свои ограничения. Например, нейросеть пока не умеет запоминать контекст и учитывать предыдущие реплики. Однако YandexGPT постоянно дообучается на новых данных от пользователей и может развить этот навык в будущем. Cравнить качество ответов YandexGPT с другими языковыми моделями пока невозможно, Яндекс не раскрыл эти данные. Также неизвестна точная архитектура модели и параметры ее обучения. Тем временем другая языковая модель GPT-4 научилась работать не только с текстом, но и с картинками.