Векторное представление слов научило компьютер материаловедению

Елизавета Ивтушок

Американские ученые создали векторное представление 500 тысяч слов, встречающихся в научных статьях по материаловедению: для этого они собрали корпус из 3,3 миллиона аннотаций. Полученная модель позволяет не только достоверно описать уже известные свойства материалов без теоретических знаний химии и физики, но также может предсказать новые возможные свойства. Статья опубликована в Nature.

Один из самых популярных сегодня методов автоматической обработки языка — это векторное представление слов. Основано оно на том, что все слова языка можно представить в виде векторов в многомерном пространстве определенной общности текстов этого же языка. Слова, которые в таком пространстве находятся ближе друг к другу, в языке будут схожи по своей семантике (как на уровне отдельных лексических единиц, так и целых текстов): скажем, слово «кролик» будет ближе к слову «заяц», чем к слову «кружка».

При этом векторное представление достаточно контекстно-зависимо, и то, как будут располагаться слова в пространстве, сильно зависит от величины выборки используемых текстов с одной стороны, а с другой — от определенной их тематики. Иногда это ограничение модели используют, например, для того, чтобы выделить из большого корпуса специфических текстов какую-то важную информацию. Например, в прошлом году ученым по текстам, написанным в XX веке, удалось проследить за тем, как менялось отношение к женщинам и азиатам — по тому, какие слова были к ним ближе.

Разработчики под руководством Вахе Щитояна (Vahe Tshitoyan) из Национальной лаборатории имени Лоуренса в Беркли предположили, что векторное представление слов, построенное на текстах определенной научной тематики, может быть использовано для получения знаний в этой области. Для этого они собрали корпус из 3,3 миллиона аннотаций к научным статьям в области материаловедения, опубликованных в период с 1922 по 2018 год. Из этого корпуса они составили словарь из полумиллиона слов, на основе которых и построили векторное пространство (для этого использовали инструменты Word2vec).

Построив модель, исследователи обнаружили, что, несмотря на отсутствие знаний в научной области, алгоритм получил достоверную информацию о некоторых материалах: для этого используется как близость векторов друг к другу в пространстве, так и некоторые векторные операции (сложение и вычитание). Например, среди соединений, которые находятся ближе всего к LiCoO₂в получившемся пространстве, оказались, к примеру, LiNiO₂и LiMn₂O₄ (все — катодные материалы для литий-ионных аккумуляторов). Кроме того, из векторного представления соединений можно, к примеру, вывести понятие оксида (в двумерном пространстве разница между векторами Zr и ZrO₂равна разнице между Ni и NiO) и антиферромагнетизма (с помощью вычитания из вектора «ферромагнетизм» NiFe и прибавления IrMn).

Кроме того, исследователи заметили, что некоторые векторные представления (к примеру, близость какого-либо соединения с каким-либо понятием) не соотносятся с информацией, доступной в использованных аннотациях. Это, к примеру, касалось слова «термоэлектрический»: ряд соединений, вектор которых был к нему близок, никогда не упоминались вместе с ним в использованной научной литературе — следовательно, термоэлектрических свойств для них описано не было. При этом их близость к термину объясняется пропорциональной близостью к другим. В пример авторы приводят полупроводник CsAgGa₂Se₄: этот материал близок к словам «халькогенид», «бандгап» и «оптоэлектрический», которые, в свою очередь, близки к «термоэлектрическому». Подход проверили и с помощью исторических данных: например, исследователи показали, что их модель указывала на близость понятия «термоэлектрический» и CuGaTe₂в рассмотренной научной литературе за четыре года до того, как впервые были описаны его термоэлектрические свойства.

Стоит отметить, что близость двух векторов друг к другу, полученная через отношение к ним других векторов, не доказывает наличие тех или иных свойств, но позволяет вынести предположение, которое в дальнейшем необходимо будет проверить. В будущих работах авторы надеются расширить корпус до набора полных текстов статей.

Векторное представление слов также может использоваться в машинном переводе: предполагается, что два слова будут занимать схожую позицию относительно векторного пространства собственных языков. Прошлой осенью разработчики из Facebook с помощью этого метода создали переводчик, который обходится без параллельных корпусов.

Елизавета Ивтушок

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

26.06.25 1.3 Подкасты IT

Нужна подсказка?

Николай Савушкин — о технологиях в рекомендательных системах

Три сигмы Подкаст

Мнение редакции может не совпадать с мнением автора

Три сигмы при участии Иван Шунин

Создатели рекомендательных систем уперлись в проблему, которую называют «The curse of quality saturation». Данных для обучения систем очень много, но это изобилие не дает желаемого прироста эффективности. О природе этой проблемы и способах ее решения мы поговорили с человеком, который эти самые рекомендательные системы делает.