Группа лингвистов из Австралии показала, насколько точно можно описывать семантические связи между двумя словами, если представлять их в виде векторов и рассчитывать их суммы и разности. Например, представьте выражение («король» — «мужчина» + «женщина») = «королева». Авторы выяснили, насколько общим является такой подход, и где заканчивается область его применимости. Препринт исследования выложен на arXiv.org.
Ученые рассматривали четыре хорошо известных представления, в которых каждому слову сопоставляется вектор. Его размерность определяется количеством контекстов, которые учитываются в данном представлении. В самом простом случае, например, слово «чай» чаще встречается в контексте «напиток» и реже в контексте «животные». В рамках дистрибутивной семантики предполагается, что при использовании достаточно большого числа контекстов каждое слово можно с достаточной степенью описать контекстным вектором.
Далее авторы проверяли гипотезу, согласно которой разность двух контекстных векторов несет достаточную информацию о семантической связи между соответствующими словами. Например, вектор («Париж» — «Франция») должен быть похож на вектор («Копенгаген» — «Дания»).
Для проверки гипотезы ученые проводили два эксперимента: в первом кластеризовали разности векторов, чтобы узнать, насколько «тесные» группы они образуют в векторном пространстве. Во втором эксперименте авторы при помощи машинного обучения классифицировали пары слов по их связи друг с другом, используя в качестве признаков разность векторов. Например, пара «самолет» — «кабина» должна быть связана признаком «одно является частью другого».
Оказалось, что разности векторов хорошо подвергались кластеризации, хотя встречались и исключения. Как правило, ими были слова с несколькими значениями. Что касается классификации, результаты оказались очень хороши для случая «закрытой системы», когда все анализируемые пары гарантированно принадлежали к одной из 18 заранее определенных связей. Если же в исследуемую выборку добавить случайные пары слов, между которыми нет определенной связи, результаты классификации значительно ухудшались. Например, программа причислила пару (took,turn) к связи «прошедшее время», хотя эти два слова на самом деле никак не связаны.
В итоге ученые отмечают, что разница контекстных векторов действительно является удобным признаком для семантического анализа. Тем не менее этот метод не очень хорошо подходит для анализа «сырых» данных, в которых много шума, так как классификатор находит связи там, где их нет, опираясь на контекст, но пропуская какие-либо другие признаки.