Как люди будут искать информацию в будущем
Еще несколько лет назад интернет-пользователи часто сталкивались с нерелевантными ответами на запросы, поиск по картинкам казался чем-то невероятным, а перевод прямо с фото — ну просто мечтой. Разобрались, чего ждать от технологий поиска, и сделали важные уточнения у Ким Дрессендорфер — эксперта по искусственному интеллекту и данным и архитектора когнитивных решений для IBM. Интервью с ней состоялось на Global Innovation Forum 2022, который проходил в Ереване 5–6 октября.
Увеличение объема памяти устройств для хранения данных позволит использовать все более тяжелые файлы. Внешние носители с памятью 100 терабайт уже есть — правда, стоят они около 40 тысяч долларов. Их догоняют смартфоны с объемом памяти в 10 терабайт и оперативной памятью на 18 гигабайт.
Цифровой след юзера становится глубже, что позволяет делать поиск более персонализированным. Действия в соцсетях, смена геолокации, косвенная информация о потребительской корзине и социально-демографических параметрах уточняют результаты выдачи и адаптируют под конкретные нужды. Конечно, у этого есть и обратная сторона: так, например, информация о дате рождения, взятая из страницы в соцсетях, может привести к взлому профиля в онлайн-банке. Информация о пользователях и их действиях, пусть и в зашифрованном виде, все еще остается у интернет-провайдера, мобильного оператора и других организаций, находящихся между пользователем и его доступом в интернет. Любой пользователь — это большой пласт данных, которыми пользуются третьи лица как во благо, так и во вред.
Уже сейчас данные можно получить напрямую из окружающего мира с помощью камеры и приложения: перевести надписи на упаковках в иностранном магазине, узнать название необычного цветка в ботаническом саду, даже понять, что не так с вашим комнатным растением. Эти технологии еще находятся на стадии бурного развития и не всегда выдают идеально точные результаты, но чем больше ими пользуются, а значит, обучают их, тем быстрее они будут выдавать верную информацию.
VR-технологии позволяют находить и новые ощущения: уже сейчас можно побывать на Международной космической станции или побегать вместе с динозаврами. Кроме этого, VR-инструменты упрощают процесс разработки онлайн-продуктов, их дизайна и интерфейсов.
Мы спросили у Ким Дрессендорфер о разработке инструментов когнитивного поиска — технологии, позволяющей находить связи между объектами на основе распознавания контекста, релевантности, намерения и интересов пользователя. Этот инструмент анализирует разнообразные форматы и источники, обрабатывает большие данные и пока что применяется в крупных компаниях.
— Как вы объясняете вашей бабушке, чем вы занимаетесь?
— Я предлагаю представить ей бюрократическую работу и кучу бумаг, которые нужно обработать, выдать, упорядочить. Все эти письма, декларации и прочие документы. И я говорю: «Ты можешь задать любой вопрос, и необходимый документ с ответом на него появится у тебя в руках».
— Как сделать так, чтобы нужная информация находилась?
Давайте посмотрим на современный интернет: 70–80 процентов информации в нем не структурированы. То есть ты можешь что-то найти, только когда знаешь, где конкретно искать. То же самое с ноутбуком: вспомните, как много разнообразных файлов на нем хранится. Если вы не распределите их надлежащим образом по папкам, то никогда не найдете, что нужно, и отправитесь в порочный круг новых и новых загрузок.
— Как процесс поиска изменился для обычных пользователей за последние несколько лет?
Вот есть, например, ключевые слова. Если вы пишете запрос: «Хочу пиццу», то в выдаче будут соответствующие рестораны. Но если вы напишете: «Не хочу пиццу», то получите то же, что и в первом случае, потому что технология поиска основана на ключевых словах и совершенно не учитывает контекст.
Сейчас же разработчики поисковых машин двигаются в сторону того, чтобы научить «машину» понимать тему запроса. Тренд идет к более уточненному поиску, чтобы в дальнейшем мы могли найти ответы на любые вопросы, возникающие у пользователя. Такой поиск основан не на ключевых словах, а на знании в широком смысле. На первый план выйдут технологии машинного обучения, которые будут самостоятельно адаптировать результаты, исходя из контекста запроса. Google уже предлагает тензорные процессоры (TPU) — это облачное решение, которое позволяет использовать возможности машинного обучения на массовом рынке. В результате приложения для машинного обучения будут работать в 27 раз быстрее при 38-процентном снижении затрат по сравнению с графическими процессорами (GPU).
— Как вы видите будущее поисковых машин?
— Я надеюсь, что у нас появится доступ к данным правильного формата, например SMB-файлы. Если он появится, то это сильно упростит жизнь тех, кто работает над поисковыми системами. Дело в том, что 80 процентов моей работы — это переподготовка данных. Мне и команде нужно убедиться, что все данные оптимизированы для когнитивного поиска. Я очень надеюсь, что когда-нибудь проблема с неструктурированными данными разрешится и мы сможем уделить больше времени проверке гипотез и созданию прогнозов.
— Расскажите о неожиданных выводах, которые удалось сделать вашим клиентам на основе результатов когнитивного поиска?
— Однажды к нам обратился германский производитель машин. У компании была проблема с часто ломающимися машинами в США. Мы получили в наше распоряжение базу данных об автомобильных авариях в Северной Америке (NHTSA Data Bank), нам понадобилось совсем немного времени, чтобы понять, что проблема с машинами возникает в летние месяцы и обычно это происходит в южных штатах: клей, используемый в руле, не выдерживает высокой температуры и начинает плавиться, и это приводит к авариям.
Когнитивный поиск пока в наибольшей степени доступен для крупных компаний, но его элементы уже можно увидеть в стандартных поисковиках: Google выдает гораздо более точную информацию под конкретный запрос, чем пару лет назад, суммируя данные запроса и результаты и иногда показывая итоговый результат в виде краткой сводки. Получать не только текстовые ответы, но и видео, изображения, данные о локации, предложения о товарах, релевантных поисковому запросу, стало частью повседневности интернет-пользователя. Кроме того, поиск можно кастомизировать, выбирая язык результатов и сроки, в которые данные появились. В будущем количество настроек увеличится.
Когнитивный поиск пока в наибольшей степени доступен для крупных компаний, но его элементы уже можно увидеть в стандартных поисковиках: Google выдает гораздо более точную информацию под конкретный запрос, чем пару лет назад, суммируя данные запроса и результаты и иногда показывая итоговый результат в виде краткой сводки. Получать не только текстовые ответы, но и видео, изображения, данные о локации, предложения о товарах, релевантных поисковому запросу, стало частью повседневности интернет-пользователя. Кроме того, поиск можно кастомизировать, выбирая язык результатов и сроки, в которые данные появились. В будущем количество настроек увеличится.
Технологии уже учатся распознавать эмоции человека — от алгоритмов соцсетей, анализирующих склонность пользователя к суициду, до анализа выражения лица человека. Вероятно, результат выдачи в скором времени будет корректироваться в соответствии с эмоциональным состоянием. Так, голосовые помощники уже сейчас учатся понимать, в каком настроении находится человек, ориентируясь на его голос.
SEO-технологии позволяют поисковой машине обнаруживать необходимый сайт или информацию. Это делается с помощью ключевых слов, которые целенаправленно использованы на этом сайте. Но с учетом запросов голосового поиска и поиска по изображениям текстовые обозначения будут менее очевидными. Им на смену придут новые «ключевики», по которым информация будет распознана как релевантная запросу пользователя. Новые способы поиска и оптимизация выдачи также могут привести к падению трафика из поисковых систем. Уже сейчас пользователь получает необходимую информацию, не переходя на сайт, а прямо на первой странице поиска в превью к сайту или в сводке, самостоятельно созданной поисковиком.
Она умеет разговаривать, видеть, и имитирует эмоции
Компания OpenAI представила мультимодальную генеративную модель GPT-4o, которая может работать с текстом, аудио и изображениями, включая видео. Модель может общаться с пользователем голосом и поддерживает 50 языков. Она может имитировать различные интонации, шепот, пение, смех. При этом модель работает гораздо быстрее предшествующей версии — время задержки ответа в голосовом режиме составляет в среднем около 0,3 секунды, что сравнимо с временем реакции человека. Также модель может видеть, получая и интерпретируя изображение с камеры в реальном времени. Трансляция презентации велась на YouTube.