Векторное представление слов указало на изменившееся отношение к женщинам и азиатам

Анализ текстов, написанных в течение XX века, помог проследить за изменением стереотипов в отношении женщин и этнических меньшинств в американском обществе, говорится в статье, опубликованной в журнале Proceedings of the National Academy of Sciences. Авторы исследования показали, что представление слов в качестве многомерных векторов служит валидным инструментом в количественных социологических исследованиях.

В векторно представленных моделях слова существуют в виде многомерных векторов, отношения между которыми указывают на семантическую близость двух слов: например, если два соответствующие разным словам вектора находятся близко друг к другу, то можно говорить о том, что слова близки друг к другу по значениям. Речь идет не только об однокоренных словах: вектор, представляющий слово «мама» будет ближе к вектору «папа», чем к вектору «синхрофазотрон». 

Векторные модели строятся благодаря машинному обучению с использованием огромных корпусов текстов (хорошо для этих целей подходят сайты-агрегаторы новостей или, например, статьи на «Википедии»). Помимо теоретических и практических работ в области дистрибутивной семантики и лексикографии, такие модели помогают в обучении голосовых помощников и работе интернет-поисковиков.

Разумеется, эффективность и точность векторных моделей целиком зависит от выборки: если обучить ее на серии рассказов Клайва Льюиса, то слова «девочка» и «лев» будут ближе друг к другу, чем слова «девочка» и «кукла». Модель при этом будет работать корректно, но не соответствовать действительности. К сожалению, подобные ситуации встречаются и при использовании для обучения менее специфичных корпусов. Например, word2vec, обученная на текстах Google News, сильно подвержена стереотипам: слово «почетный» ближе к слову «мужчина», а «подчиняющаяся» — к слову «женщина».

Программисты стараются избавить векторные модели от появления подобных казусов: расширением выборки текстов или исключением наиболее странных случаев. Но эти случаи могут быть и полезны: например, в социологических исследованиях. В своей новой работе ученые из Стэнфордского университета при участии Дэна Журафски (Dan Jurafsky) использовали word2vec для построения векторных представлений слов из текстов Google Books и COHA (Corpus of Historical American English). Оба использованных ресурса позволяют искать материалы по годам: ученым, таким образом, удалось разбить тексты, датируемые в промежутке от 1900 до конца века, на десятилетия. Ученые построили векторные представления слов, наиболее соответствующие женщинам и азиатам, и сравнили их с доступными демографическими данными за каждый период. 

Исследователям удалось обнаружить корреляцию (p < 0,003) между векторными моделями и реально распространенными профессиями среди женщин за каждый период. Тем не менее авторы отметили, что даже в тех профессиях, где число женщин и мужчин было примерно равным, перевес векторных моделей связанных с ними слов был в сторону мужчин — поэтому ученые проследили и за уклоном в сторону гендера в течение времени. Оказалось, что и различия в самых востребованных профессиях и связанных с ними векторных представлениях слов уменьшались, начиная с 50-х годов, приближаясь к нулю: это означает, что со временем гендерный уклон в профессиях снижался. То же самое происходило и для группы этнических меньшинств: в данном случае — азиатов.

Затем ученые решили посмотреть, как изменялись наиболее близкие к женщинам и азиатам прилагательные, и как эти изменения связаны с реально происходившими в соответствующее время событиями в США. Так, например, в 1910-х годах среди самых близких к женщине словам были «мечтательная» и «милая», в 1950-х — «безвкусная» и «согласная», а в 1990-х — «искусственная» и «ненатуральная». Изменились векторные представления и для азиатов: в 1910-х их описывали как «завистливых», в 1950-х — «неорганизованными», а в 1990-х — «сдержанными».

Исследователи сравнили коэффициенты корреляции между самыми распространенными прилагательными для женщин и азиатов по годам. Оказалось, что коэффициент падал (то есть прилагательные стали сильно отличаться) для слов, связанных с женщинами, начиная с конца 60-х годов: в то время в США процветало феминистское движение. Слова, описывающие азиатов, начали различаться в начале 60-х — во время второй волны иммиграции из стран Азии — а также в начале восьмидесятых, когда прирост новых иммигрантов слегка уменьшился, а у старых появились потомки.

Изменения в языке отражают и изменения в обществе, которое этим языком пользуется. Речь идет не только о масштабных изменениях, которые происходят и оседают в течение нескольких столетий: изменения — даже происходящие в течение сравнительно малого времени — хорошо отображает лексика. Авторы статьи показали, что даже «ошибки», от которых разработчики пытаются избавиться, анализируя естественный язык автоматически, могут служить инструментом и для его изучения, и для изучения группы его носителей.

Использование векторного представления слов может пригодиться и для создания совершенно новых инструментов. Например, в прошлом году ученые применили word2vec для написания поваренной книги для кухни в стиле фьюжн: в ней есть рецепт лазаньи, которой адаптирован для японцев и включает в себя рис. А вот американские ученые на основе анализа научных публикаций научились предсказывать результаты процесса получения материалов.

Елизавета Ивтушок

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Дивный новый mundus

Текстовый квест о суровом мире латыни