В экспериментах с участием более 10 тысяч человек
Американские исследователи провели серию экспериментов, которые показали, что получение информации от больших языковых моделей приводит к более поверхностному изучению предмета по сравнению с использованием обычных поисковых систем, и основанные на таких знаниях советы получаются менее вразумительными, информативными, оригинальными и полезными. Статья с результатами исследования опубликована в журнале PNAS Nexus.
Большие языковые модели (БЯМ, LLM), в основном в виде генеративных предобученных трансформеров и основанных на них чат-ботов, все больше используются для широкого круга задач, в том числе для получения новых знаний и навыков. Автоматизация поиска и синтеза больших объемов информации позволяет изучить интересующий предмет быстрее и с меньшим количеством усилий, избавляя пользователи от необходимости активно искать источники данных и анализировать их. При этом известно, что активная работа с источниками способствует формированию более глубокой и уникальной структуры знаний, так что можно предположить, что при использовании LLM этот эффект будет проявляться слабее. Однако на практике этот вопрос изучен мало.
Шири Мелумад (Shiri Melumad) и Чин Хо Юн (Jin Ho Yun) из Пенсильванского университета провели серию экспериментов с общим участием почти 10,5 тысячи человек. В первом из них 1104 участникам (медианный возраст 42,4 года; 53 процента — женщины) на платформе Prolific предложили дать воображаемому другу совет о том, как засадить огород с овощами, используя без ограничений либо ChatGPT, либо Google (без ИИ-обзоров). Сформировав совет, участники заполняли опросник для оценки приобретенных знаний. Те, кто использовал ChatGPT, в среднем тратили меньше времени на выполнение задачи, субъективно вкладывали в нее меньше сил и оценивали свои знания как более поверхностные, а их советы были короче, с меньшим числом фактических ссылок и менее оригинальными. Эти результаты воспроизвели в двух дополнительных опытах, в которых участники искали информацию с большой личной значимостью: о здоровье (2402 человека) и о том, что делать, став жертвой мошенников (1976 человек).
Во втором эксперименте, также на платформе Prolific, приняли участие1979 человек (медианный возраст 41,28 года; 50 процентов — мужчины). Задача была той же, но участникам разрешили сделать только один запрос в ChatGPT или Google. Но вместо настоящего ответа от чат-бота или поисковика им предоставили симулированную выдачу в соответствующем формате, причем в обоих случаях объем предоставленных фактов был идентичным. Несмотря на одинаковый объем предоставленной информации, результаты оказались схожими с первым экспериментом: пользователи чат-бота тратили меньше времени, но субъективно получали менее глубокие знания и давали менее объемные и оригинальные советы.
Третий эксперимент с участием 250 человек (медианный возраст 22,75 года; 73 процента — женщины) проводили в университетской поведенческой лаборатории. Участникам предложили написать совет о том, как вести более здоровый образ жизни, используя Google, причем половине разрешили пользоваться только встроенными ИИ-обзорами поисковика, а другой половине — только стандартной поисковой выдачей. Количество запросов не ограничивали. Как и в предыдущих экспериментах, при использовании LLM затрачивалось меньше времени и сил, усвоенная информация была менее полной и актуальной, а советы содержали меньше фактов и обладали меньшей уникальностью.
В четвертом эксперименте 1493 участников (медианный возраст 39,79 года; 52 процента — женщины) на платформе MTurk Connect попросили оценить по два случайно выбранных совета, написанных в ходе третьего эксперимента, один — с помощию LLM, другой — с помощью стандартного поиска. В ходе предварительного опроса большинство участников сошлись в том, что вопросы здорового образа жизни весьма значимы для них лично. В среднем советы, написанные по ИИ-обзорам, показались рецензентам менее полезными, информативными и заслуживающими доверия, а работа по их созданию — более небрежной. Такие советы участники были менее склонны использовать сами или рекомендовать другим. Эти результаты воспроизвели в схожем эксперименте с участием 1258 человек.
Полученные результаты подтверждают гипотезу о том, что за основные преимущества использование больших языковых моделей — отсутствие необходимости в поиске и синтезе информации — приходится расплачиваться глубиной, структурированностью и оригинальностью полученных знаний и своей уверенности в них.
О том, стоит ли поручать LLM рецензирование научных статей, можно почитать в одном из наших блогов, а о том, насколько велик риск их вырождения — в материале «И целого интернета мало».