Что тебе снится, бот с «Амазона»?

Интернет-гиганты, такие как Amazon, служат интересам не только миллионов пользователей по всему миру, но и приносят пользу науке, предоставляя ученым свои сервисы для проведения онлайн-анкетирования. Однако в тех случаях, когда за участие в исследованиях платятся деньги, наряду с добросовестными респондентами на опросы психологов и социологов отвечают и мошенники, запускающие ботов для бессмысленного заполнения сразу множества анкет. Как обезопасить от них научные исследования? И кто это должен делать — сами ученые или администраторы сервисов? И могут ли результаты онлайн-анкетирования считаться валидными? Все эти вопросы прямо сейчас бурно обсуждают пользователи «амазоновского» сервиса Mturk.

В начале августа в одной из групп в Facebook*, посвященных психологическим исследованиям, выпускник Университета Миннесоты Макс Хуэй Бай (Max Hui Bai) задал другим пользователям простой вопрос: использовали ли они сервис Mturk в последние несколько недель и заметили ли они при этом снижение качества ответов? Сам он, обрабатывая результаты последнего анкетирования, обнаружил, что получил на открытые вопросы очень много ответов невпопад. Ему пришлось отбросить примерно половину данных — намного больше, чем обычно. Кроме того, Макса насторожило, что GPS-локации многих респондентов дублировались. Пост Макса стал поводом для бурных обсуждений и публикаций в нескольких изданиях. И неудивительно — сервис Amazon заподозрили в том, что на нем завелись боты, участвующие в научных исследованиях вместо живых людей.

Платформа Amazon’s Mechanical Turk (или сокращенно Mturk) была запущена в 2005 году. Она предоставляет ученым и исследователям возможность за небольшие деньги привлекать сторонних людей к выполнению несложных заданий — от распознавания изображений и символов до участия в опросах. Можно смело сказать, что сервис произвел настоящую революцию в области социально-психологических исследований: если раньше ученые находили респондентов преимущественно в стенах кампуса, то теперь получили доступ к огромному количеству людей, готовых заполнять анкеты в режиме 24/7. И все это за очень низкую плату — порой за разовое участие в онлайн-опросе она составляет всего несколько центов. Данные, полученные с помощью Mturk, легли в основу тысяч исследований: некоторые называют это золотым веком социальных наук.

Однако качество собранных через Mturk данных порой вызывает сомнения. Небольшой размер гонорара не способстует желанию респондентов подолгу задерживаться на вопросах. Некоторые пользователи платформы рассматривают ее как единственный источник дохода и работают по ненормированному графику, что также снижает качество их ответов. В 2016 году издание TechRepublic цитировало слова Рошель Лаплант, эксперта по работе с платформой Mturk: «Если опрос публикуется в три часа утра, компьютер или телефон сигналят, человек встает и принимается за ответы. Вся его жизнь подчинена этому графику».

Сегодня большинство интервьюеров научилось бороться с хитростями подобного рода. Для улучшения качества полученных данных используются капча и задания, проверяющие внимание пользователя. Исследователи могут создавать вопросы с жесткими параметрами или формулировать их так, чтобы исключить автоматизацию ответов.

Тем не менее, Макс Хуэй Бай и другие исследователи заподозрили, что пользователи Mturk смогли каким-то образом обойти все фильтры. Вообще боты на сервисе Amazon не запрещены: политика допустимого использования платформы гласит, что компания в целом не возражает, если вы используете скрипты и автоматизированные инструменты, но лишь в определенных целях. Респонденты нередко применяют специальные программы для быстрого поиска высокооплачиваемых заданий. Однако заполнять анкеты с помощью ботов нельзя: весь смысл существования Mturk в том, чтобы ответы давали живые люди.

Конечно, запреты никого не останавливают, и пользователи пишут все новые и новые скрипты для автоматического заполнения форм. Однако неясно, действительно ли в августе произошел всплеск активности ботов, или она в принципе уже достаточно высока. «Боты на Mturk существуют годами. Сложно сказать, что стало причиной столь бурных дискуссий — увеличение количества ботов или увеличение количества исследователей, которые обращают на них внимание и высказываются публично», — комментирует Рошель Лаплант уже в этом году.

Кэтрин Джонсон, профессор психологии из Университета штата Аризона, которая обычно проводит опросы раз в месяц, заметила те же странности, что и Макс. Тем не менее дублирующиеся данные о местоположении респондентов, будь то GPS- или IP-адреса, сами по себе нельзя считать показателем недобросовестного поведения, утверждают эксперты. Если это единственное, что выглядит в данных подозрительно, то ученым не стоит волноваться. Куда больше, однако, настораживают бессмысленные ответы. Многие ученые сообщили Максу, что и им в ответах на открытые вопросы часто стали попадаться слова «хорошо» или «мило», употребленные совсем не к месту.

«Существуют расширения браузера, которые заполняют формы случайным образом, поэтому я уверена, что часть того, что мы видим, объясняется именно этим», — отмечает Лаплант. Правда, она признает, что подобным образом порой ведут себя и люди. Респонденты Mturk могут копировать и вставлять в разные опросы одни и те же ответы, чтобы побыстрее справиться с максимальным числом заданий и больше заработать. По мнению экспертов, ответы невпопад могут давать пользователи, плохо владеющие английским языком.

Компания Amazon пока не дала развернутого комментария относительно сложившейся ситуации. В принципе, чтобы не дать пользователю создать себе несколько аккаунтов, платформа требует, чтобы он предоставил действительную налоговую информацию. Однако это никак не помешает респонденту использовать скрипт. Представитель Amazon в беседе с изданием WIRED рассказал, что компания приостанавливает или прекращает работу аккаунтов, которые попались на автоматическом заполнении форм. «У нас есть автоматические и ручные механизмы, чтобы распознавать мошенничество и злонамеренное использование сервиса ботами, и мы постоянно улучшаем их», — заявил представитель Amazon. При этом он не сказал, действительно ли наблюдается всплеск странного поведения на платформе Mechanical Turk, а также не привел конкретные примеры ботов или аккаунтов.

Другие исследователи считают, что обнаруженные Максом следы деятельности ботов — не новость. «Это продолжается уже давно, фактически с основания Mechanical Turk, — отмечает Кристи Милланд, использующая сервис для своих исследований уже 12 лет. — Я лично знаю пару десятков человек, которые применяют скрипты, и им за это никогда ничего не было». Милланд добавляет, что лично ей понадобится всего 30 секунд, чтобы написать простенький скрипт для автоматического заполнения информации на MTurk.

На прошлой неделе Макс создал опрос для ученых и теперь пытается выяснить, является ли обнаруженный им дефект новым, насколько серьезна проблема и существуют ли методы для ее преодоления. В его последнем исследовании было 578 ответов, и 282 из них (то есть почти ровно 50 процентов) содержали дублирующиеся GPS-данные. Причем, как показали тесты, их нельзя считать достоверными. Пока что Макс обрабатывает результаты опроса для психологов и социологов. Как только анализ будет завершен, исследователь намерен отправить полученные им данные в Amazon в надежде на содержательные ответы со стороны компании.

*Facebook принадлежит компании Meta, деятельность которой в России запрещена.