Американские ученые создали векторное представление 500 тысяч слов, встречающихся в научных статьях по материаловедению: для этого они собрали корпус из 3,3 миллиона аннотаций. Полученная модель позволяет не только достоверно описать уже известные свойства материалов без теоретических знаний химии и физики, но также может предсказать новые возможные свойства. Статья опубликована в Nature.
Один из самых популярных сегодня методов автоматической обработки языка — это векторное представление слов. Основано оно на том, что все слова языка можно представить в виде векторов в многомерном пространстве определенной общности текстов этого же языка. Слова, которые в таком пространстве находятся ближе друг к другу, в языке будут схожи по своей семантике (как на уровне отдельных лексических единиц, так и целых текстов): скажем, слово «кролик» будет ближе к слову «заяц», чем к слову «кружка».
При этом векторное представление достаточно контекстно-зависимо, и то, как будут располагаться слова в пространстве, сильно зависит от величины выборки используемых текстов с одной стороны, а с другой — от определенной их тематики. Иногда это ограничение модели используют, например, для того, чтобы выделить из большого корпуса специфических текстов какую-то важную информацию. Например, в прошлом году ученым по текстам, написанным в XX веке, удалось проследить за тем, как менялось отношение к женщинам и азиатам — по тому, какие слова были к ним ближе.
Разработчики под руководством Вахе Щитояна (Vahe Tshitoyan) из Национальной лаборатории имени Лоуренса в Беркли предположили, что векторное представление слов, построенное на текстах определенной научной тематики, может быть использовано для получения знаний в этой области. Для этого они собрали корпус из 3,3 миллиона аннотаций к научным статьям в области материаловедения, опубликованных в период с 1922 по 2018 год. Из этого корпуса они составили словарь из полумиллиона слов, на основе которых и построили векторное пространство (для этого использовали инструменты Word2vec).
Построив модель, исследователи обнаружили, что, несмотря на отсутствие знаний в научной области, алгоритм получил достоверную информацию о некоторых материалах: для этого используется как близость векторов друг к другу в пространстве, так и некоторые векторные операции (сложение и вычитание). Например, среди соединений, которые находятся ближе всего к LiCoO2 в получившемся пространстве, оказались, к примеру, LiNiO2 и LiMn2O4 (все — катодные материалы для литий-ионных аккумуляторов). Кроме того, из векторного представления соединений можно, к примеру, вывести понятие оксида (в двумерном пространстве разница между векторами Zr и ZrO2 равна разнице между Ni и NiO) и антиферромагнетизма (с помощью вычитания из вектора «ферромагнетизм» NiFe и прибавления IrMn).
Кроме того, исследователи заметили, что некоторые векторные представления (к примеру, близость какого-либо соединения с каким-либо понятием) не соотносятся с информацией, доступной в использованных аннотациях. Это, к примеру, касалось слова «термоэлектрический»: ряд соединений, вектор которых был к нему близок, никогда не упоминались вместе с ним в использованной научной литературе — следовательно, термоэлектрических свойств для них описано не было. При этом их близость к термину объясняется пропорциональной близостью к другим. В пример авторы приводят полупроводник CsAgGa2Se4: этот материал близок к словам «халькогенид», «бандгап» и «оптоэлектрический», которые, в свою очередь, близки к «термоэлектрическому». Подход проверили и с помощью исторических данных: например, исследователи показали, что их модель указывала на близость понятия «термоэлектрический» и CuGaTe2 в рассмотренной научной литературе за четыре года до того, как впервые были описаны его термоэлектрические свойства.
Стоит отметить, что близость двух векторов друг к другу, полученная через отношение к ним других векторов, не доказывает наличие тех или иных свойств, но позволяет вынести предположение, которое в дальнейшем необходимо будет проверить. В будущих работах авторы надеются расширить корпус до набора полных текстов статей.
Векторное представление слов также может использоваться в машинном переводе: предполагается, что два слова будут занимать схожую позицию относительно векторного пространства собственных языков. Прошлой осенью разработчики из Facebook с помощью этого метода создали переводчик, который обходится без параллельных корпусов.
Елизавета Ивтушок
Спасибо авторам Black Mesa!
Мнение редакции может не совпадать с мнением автора
Я не только физик и научный журналист, но еще и фанат видеоигр. Внимательные читатели могли это заметить по большому материалу, посвященному физике в Mass Effect, который я написал, или по гифкам из игр, которыми я иногда иллюстрирую свои новости.