Роботы из ньюсрума

Сможет ли искусственный интеллект заменить журналистов?

Полина Огородникова

Искусственный интеллект в разы быстрее человека обрабатывает огромные объемы данных, не прерываясь на обед и не требуя прибавку к зарплате. Именно так ИИ грозится захватить практически все сферы человеческой деятельности, от промышленного производства до образования и медицины. Не обойдет эта участь и вотчину N + 1 — журналистику. Поэтому вместе с организаторами конкурса Up Great мы разобрались, где журналисты уже не нужны, где еще необходимы и как им заключить творческий союз с искусственным интеллектом.

Встряска для репортеров

Кен Швенке проснулся из-за того, что его дом начало трясти. Часы показывали половину седьмого утра: Кен вскочил с кровати и уставился на экран своего компьютера. На мониторе светилось сообщение: «По данным Геологической службы США, в понедельник утром в пяти милях от Вествуда, штат Калифорния, было зарегистрировано землетрясение силой 4,7 балла. Толчок произошел в 6:25 утра по тихоокеанскому времени на глубине 5,0 миль».

Кен пробежал глазами текст и нажал кнопку «опубликовать» — так газета Los Angeles Times впервые разместила на своем сайте новость, написанную алгоритмом Quakebot. На публикацию ушло три минуты.

Это было в 2014 году. Сегодня ботов для создания контента используют Associated Press, BBC News, Reuters, The Guardian, The New York Times, Forbes, The Washington Post, The Times, The Sunday Times, The Wall Street Journal, Bloomberg, японская телерадиокомпания NHK, финское информационное агентство STT и многие другие компании. Итак, что уже умеют делать алгоритмы?

Писать простые заметки. Одним из первых ботов-журналистов стал продукт компании Narrative Science — в 2012 году их алгоритм начал готовить новости для Forbes. Другой «железный корреспондент» по имени Heliograf работает на газету The Washington Post. Журналистскую славу ему принесла работа на Летних Олимпийских играх в Рио — алгоритм писал новости, отчитываясь о результатах состязаний. Позже он освещал президентские выборы в США и даже принес изданию премию — пока не Пулитцеровскую, правда, а «Биггис»: за использование передовых практик в сфере ИИ.

В агентстве Associated Press текстами, анализирующими финансовые отчеты компаний, занимается алгоритм Wordsmith — он делает это быстрее и точнее живых корреспондентов: если необходимо, отмечают разработчики, Wordsmith может производить по 2000 статей в секунду. В Bloomberg похожие функции на себя взяла система Cyborg.

Австралийский филиал The Guardian недавно стал использовать помощника по имени ReporterMate — его первая заметка была посвящена пожертвованиям для политических партий, а для газеты Los Angeles Times редакционные боты пишут короткие новости о городских убийствах.

Искать информацию. К примеру, в BBC News это делает алгоритм Juicer. Он просматривает RSS-каналы и сообщения около 850 новостных агентств и разбивает их на четыре категории: «люди», «места», «организации» и «вещи» (все, что не попало в первые три). В результате журналист, который ищет, скажем, последние новости про искусственный интеллект, может сэкономить массу времени — Juicer «гуглит по лентам» за него, а потом для удобства еще и структурирует найденное.

Общаться с аудиторией. Масса изданий держат в штате чат-ботов, которые помогают читателям ориентироваться в новостях, а редакциям — анализировать аудиторию: они есть у BuzzFeed, у The Guardian, у «Медузы» и даже у российской версии журнала Glamour.

Узнавать спикеров в лицо. Стажеры отдела интерактивных новостей The New York Times придумали для коллег инструмент, который называется «Шазам по конгрессменам». Приложение помогает идентифицировать на фотографиях членов Конгресса США, а их немало — 541 человек, да и состав их регулярно обновляется, поэтому вряд ли есть сегодня журналист, кто помнит всех конгрессменов в лицо.

Работать в прямом эфире. Киберведущий китайского информационного агентства Синьхуа и его коллега-девушка заставили понервничать уже не одну сотню тележурналистов всего мира.

Писать связные (но фейковые) новости. В начале этого года исследователи из OpenAI смогли создать алгоритм, способный генерировать целые страницы правдоподобного и связного текста без дообучения под конкретную задачу. Так, нейросеть GPT-2 написала фейковую новость про «серебристо-белых единорогов с четырьмя рогами», основываясь только на заголовке, а также смогла достаточно убедительно (правда, с 25-й попытки) объяснить, чем вредна переработка мусора.

Алгоритмы, интерпретирующие текст, существуют уже давно, но именно за последний год в их развитии произошел принципиальный скачок, — объясняет заведующий лабораторией методов анализа больших данных НИУ ВШЭ Андрей Устюжанин. — Google, Microsoft и Facebook опубликовали алгоритмы, основанные на нейронных сетях, которые по уровню понимания обычных текстов превзошли неспециалистов. После этого исследователям пришлось предложить более сложную методику для оценки алгоритмов понимания естественного языка: раньше это был набор заданий и метрика GLUE (General Language Understanding Evaluation), теперь — SuperGLUE. И если люди справляются с заданиями нового теста в среднем на 90 процентов, то алгоритмы, раньше находившиеся на уровне 60-70 процентов, уже добрались до 85 процентов. Практически вплотную к человеку.

SuperGLUE — это короткий тест из восьми типовых вопросов на понимание смысла того или иного текста. Испытуемому, будь то человек или машина, надо прочесть описание некоей ситуации и ответить на вопрос о том, как ее интерпретировать. Например, одно из заданий теста SuperGLUE выглядит так:

Посылка: Девочка получила приз.
Вопрос: Какова ПРИЧИНА этого?
Вариант#1: Она победила в конкурсе правописания.
Вариант#2: Она приобрела нового друга.

Верным ответом тут, как наиболее вероятно истинным, будет первый, и чтобы его дать, достаточно здравого смысла. А вот экспертные или насыщенные символическим значением тексты ИИ корректно интерпретировать пока не может — для этого ему еще учиться и учиться (а его создателям, соответственно, еще предстоит разобраться с искусством чтения «Поминок по Финнегану» или поэзии акмеистов).

ИИ в руках журналиста

Хотя журналистские задачи все больше автоматизируются с помощью постоянно умнеющих алгоритмов и многих репортеров это начинает пугать, менее впечатлительные представители профессии уже создают с помощью роботов принципиально новые виды историй. Журналисты BuzzFeed News в 2016-2017 годах опубликовали несколько резонансных материалов о самолетах-шпионах, принадлежащих правоохранительным органам США, которые умеют прослушивать телефоны и отслеживать передвижения людей.

Как они это сделали? Научили алгоритм разбираться в информации с сайта Flightradar24 — сервиса мониторинга полетов разных летательных средств.

Для обучения они взяли данные о 20 тысячах полетах, выполненных в течение четырех месяцев, и определили параметры для поиска: скорость, маневры, продолжительность и высоту полета, так как самолеты-шпионы, как правило, наворачивают небольшие круги над своей целью. Из выборки исключили крупные пассажирские рейсы и воздушные суда зарубежных компаний.

Потом алгоритм научился различать характеристики разных самолетов на примере 100 известных авиаразведчиков и 500 случайных рейсов — и выяснил, что самолеты, подходящие под заданное журналистами описание, шпионили за съездом Республиканской партии США, кружили над мексиканским городом Эльдорадо, где проходила операция по захвату главарей крупного наркокартеля, а также следили за террористическими организациями в Африке.

А журналист Эндрю Макгилл из The Atlantic благодаря машинному обучению научился прекрасно разбираться в твиттер-привычках Дональда Трампа: хотя от имени аккаунта президента США пишет не только Трамп, но и его помощники, твиттер-бот «Trump or Not» с точностью в 90 процентов может определить автора сообщения.

Создать алгоритм Эндрю подтолкнула обыкновенная производственная необходимость. Раньше все журналисты и без ботов прекрасно отличали реальные высказывания Трампа в твиттере — они отправлялись с Android-устройства, чаще выходили ночью и были довольно злыми. Однако весной 2017 года Белый дом, как предполагает журналист, задумался о безопасности и предложил главе государства сменить мобильное устройство, поскольку президент США, судя по всему, пользовался старой и ненадежной моделью на базе Android.

После этого отличать сообщения «на глаз» стало довольно сложно. Но с помощью ИИ настоящего Трампа реально вычислить и сегодня: данные «Trump or Not» показывают, что он, в частности, любит цитировать твиты о себе, использовать слово «media» и длинные пробелы.

This tweet was sent via Twitter for iPhone. I compute a 94% chance it was written by Trump himself. https://t.co/xg9XybyFox

Другой алгоритм помог журналистам из ProPublica разобраться в профессиональных интересах конгрессменов США: машинное обучение использовали, чтобы определить конкретные темы, которыми занимаются политики. Для этого журналисты взяли несколько сотен тысяч пресс-релизов, вышедших с 2015 по 2017 год, и с помощью алгоритма идентифицировали фразы, которые члены Конгресса используют чаще других.

Программа смогла не только выяснить, кто регулярно упоминает в своей публичной риторике о проблемах шахтеров, а кто — о конфиденциальности электронной почты, но и показать, что высказывания конгрессменов иногда не сходятся с их политическими взглядами.

Канадский журналист и писатель Стивен Марч отважился на еще более смелый эксперимент: он воспользовался помощью алгоритма SciFiQ, чтобы написать научно-фантастический рассказ.

Стивен познакомил программу с 50 своими любимыми произведениями — рассказами Рэя Бредбери, Филипа Дика и Урсулы Ле Гуин. Изучив материал, машина рекомендовала Марчу, чтобы в его рассказе были четыре героя, 26 процентов текста составляли диалоги (причем только 16 процентов из них могли принадлежать женщинам), а действие происходило не на Земле.

Среди 14 советов, данных машиной писателю, был, например, и такой: в главной сцене рассказа группа людей ночью совершает побег из здания, двигаясь на высокой скорости на «высокотехнологичном транспортном средстве из металла и стекла».

Марч последовал всем рекомендациям, и в итоге у него получилась история про молчаливую сотрудницу Института по изучению внеземной жизни, по ночам наблюдающую за жизнью Другой планеты в 1564 световых годах от Земли.

Рассказ показали редактору The New Yorker Деборе Трейсман и главному редактору издательства Random House Энди Уорду, которые не знали, как он был создан. Критики отметили, что диалоги получились «деревянными», а сам рассказ незаконченным, хотя редактор Стивена Марча, посвященный в историю создания рассказа, отметил: «Тот факт, что все на самом деле не так уж и плохо, довольно примечателен».

«Сегодня в огромном количестве профессий на самом деле идет не замена человека на ИИ. Происходит то, что мы высвобождаем время человека, позволяя ему эффективнее работать над более сложными и интересными задачами, которые генерируют больше прибавочной стоимости, — считает научный сотрудник Института Макса Планка и AI-евангелист компании ABBYY Иван Ямщиков. — Когда речь идет о квалифицированных и крутых журналистах, мне кажется, им нечего бояться. Они просто будут писать больше годного контента, делать больше форматов, в которых важно личное участие человека».

Горе от искусственного ума

«И сказал на исходе мая в суете бесконечного сна там за окном седая родная моя сторона». Похоже на Сергея Есенина, правда? Но нет, это четверостишие написала нейронная сеть, созданная Иваном Ямщиковым и Алексеем Тихоновым. Ее обучали на произведениях поэта Серебряного века.

Понять, кто же автор того или иного текста — человек или машина, сложно уже не только в случае со стихотворениями, но и с журналистскими текстами. Об этом говорят результаты исследования, проведенного немецкими учеными: в среднем читатели не могут различить авторскую и сгенерированную ботом новостную заметку. Зато, если показать им два текста одновременно, они отмечают, что «человеческий» материал более удобен для чтения, но в то же время машинный кажется более достоверным.

Должен ли читатель знать, кто автор: кремниевый или белковый журналист? Алгоритмы уже умеют практически из ничего делать фейковые новости. Вы, например, уверены, что этот текст не написан машиной?

Сегодня большинство изданий, использующие ИИ для создания контента, подобные заметки маркируют. Например, «Эта история была автоматически сгенерирована Quakebot, компьютерным приложением, которое отслеживает последние землетрясения, обнаруженные Геологической службой США» или «Эта история может быть обновлена, если появится больше информации. Она создана на базе Heliograf, системы искусственного интеллекта The Post».

Но кто несет ответственность за ошибки робожурналиста? Такое, к примеру, уже случалось с алгоритмом Quakebot, написавшем заметку о землетрясении магнитудой 6,8 с эпицентром неподалеку от калифорнийской Санта-Барбары — а потом оказалось, что это землетрясение 1925 года, данные о котором в тот момент обрабатывали ученые.

Главный аналитик Центра НТИ на базе МФТИ по направлению «Искусственный интеллект», член рабочей группы НТИ «Нейронет» Игорь Пивоваров уверен, что важные решения все еще должны оставаться в руках человека.

В медицине есть понятие — система поддержки принятия врачебных решений, — говорит Пивоваров. — Когда алгоритм видит на рентгеновском снимке опухоль и показывает ее врачу, именно врач принимает решение о постановке диагноза. Если перевести это в термины журналистики, то искусственный интеллект может сгенерировать некоторую «рыбу» текста, но направить его редактору должен все равно журналист — человек, который за этот текст отвечает. Кроме самого алгоритма, в котором могут быть ошибки, важно, на каких данных он обучается, какие факторы могут на него повлиять. Пока вопрос с регулированием ответственности не решен, думаю, ИИ должен работать исключительно в связке с человеком, а финальное решение о публикации должен принимать журналист, который понимает суть новости.

Воспитатель для ИИ

На сайте «Will robots take my job?» («Отберут ли роботы мою работу?») «риск роботизации» репортера сейчас оценивается в 11 процентов. Чуть меньше она у теле- и радиоведущих — для них этот показатель составляет 10 процентов, а у редакторов — всего 6 процентов.

Оценки, с которыми можно познакомиться на этом сайте, опираются на научную работу исследователей из Оксфордского университета, предложивших новую методику для определения вероятности компьютеризации профессий. В их список вошли 702 занятия, правда, надо отметить, что ученые анализировали сугубо американский рынок труда.

Сегодня эксперты в области искусственного интеллекта, размышляя о будущем журналистики, сходятся в том, что о тотальной автоматизации этой профессии говорить пока рано. Зато можно предположить, как в ближайшем будущем будут развиваться технологии искусственного интеллекта в медиасфере.

К примеру, Иван Ямщиков считает, что на базе NLP (Natural Language Processing — направление ИИ по обработке естественного языка) уже можно создать «нейрофактчекера»:

«Представьте, что у нас есть текст, но перед публикацией в интернете он должен на уровне протокола пройти верификацию. По сути, нужно проверить только две вещи: существует ли факт, соответствующий тому или иному предложению, и дать ссылку на этот факт, а если его нет — проверить, является ли данное утверждение мнением, которое и выражается как мнение, например начинается со слов: “Я полагаю...” или “Мне кажется, что...”.»

«Тогда каждый текст будет представлять не только текст, но и автоматический набор гиперссылок на все факты, которые можно из него вытащить, — продолжает Ямщиков. — Кроме того, он будет иметь численную оценку, например: “Дорогой пользователь, в этом тексте 20 процентов фактов представляются верными, а 10 процентов фактов верифицировать не удалось. Имей это, пожалуйста, в виду. Оставшаяся часть текста состоит из серой зоны, в которой мы не понимаем, что хотел сказать автор, и из 30 процентов мнения автора. Кстати, вот ссылки на его профили в социальных сетях».

С помощью технологий искусственного интеллекта, уверен Андрей Устюжанин, можно бороться с недоброкачественным контентом. Эксперт полагает, что альтернативой институту репутации может стать как раз подобная интеллектуальная система фактчекинга.

«Могут появляться системы, которые будут искать подтверждения тому, что, например, землетрясение или наводнение происходит на самом деле, — говорит Устюжанин. — Для этого потребуется прозрачная интеграция с другими информационными источниками, скажем, со спутниковым наблюдением. Если объединить информацию, полученную от очевидцев в социальных сетях, и фотографии бедствия со спутниками, мы получим фрагмент сообщения с гораздо более высоким кредитом доверия».

Игорь Пивоваров же полагает, что появятся люди, которые будут обучать алгоритмы, создающие контент для тех или иных СМИ. По его мнению, в обязанности таких специалистов войдет почти что воспитательная работа с искусственным интеллектом:

«Я думаю, что скоро у каждого издания появится свой сервер, на котором живет алгоритм и через который проходит весь трафик СМИ. Искусственный интеллект будет постепенно учиться, запоминать все особенности издания, его уникальный стиль и научится выдавать некий прототип статьи. Ему понадобится воспитатель, например экс-журналист, который будет общаться с ним почти как с ребенком — давать читать хорошую литературу, смотреть, чему он научился, не позволять потреблять некачественный контент».

Журналистика — далеко не единственная профессия, которую ждут изменения из-за внедрения искусственного интеллекта, поэтому, чтобы оставаться востребованным специалистом, уверен Иван Ямщиков, нужно следовать простому правилу: «Быть хорошим профессионалом и стараться делать меньше скучных задач. С одной стороны, скучная работа не дает возможности профессионально расти, а с другой, именно такие задачи будут автоматизировать в первую очередь».

Полина Огородникова