Векторное представление слов указало на изменившееся отношение к женщинам и азиатам

Анализ текстов, написанных в течение XX века, помог проследить за изменением стереотипов в отношении женщин и этнических меньшинств в американском обществе, говорится в статье, опубликованной в журнале Proceedings of the National Academy of Sciences. Авторы исследования показали, что представление слов в качестве многомерных векторов служит валидным инструментом в количественных социологических исследованиях.

В векторно представленных моделях слова существуют в виде многомерных векторов, отношения между которыми указывают на семантическую близость двух слов: например, если два соответствующие разным словам вектора находятся близко друг к другу, то можно говорить о том, что слова близки друг к другу по значениям. Речь идет не только об однокоренных словах: вектор, представляющий слово «мама» будет ближе к вектору «папа», чем к вектору «синхрофазотрон». 

Векторные модели строятся благодаря машинному обучению с использованием огромных корпусов текстов (хорошо для этих целей подходят сайты-агрегаторы новостей или, например, статьи на «Википедии»). Помимо теоретических и практических работ в области дистрибутивной семантики и лексикографии, такие модели помогают в обучении голосовых помощников и работе интернет-поисковиков.

Разумеется, эффективность и точность векторных моделей целиком зависит от выборки: если обучить ее на серии рассказов Клайва Льюиса, то слова «девочка» и «лев» будут ближе друг к другу, чем слова «девочка» и «кукла». Модель при этом будет работать корректно, но не соответствовать действительности. К сожалению, подобные ситуации встречаются и при использовании для обучения менее специфичных корпусов. Например, word2vec, обученная на текстах Google News, сильно подвержена стереотипам: слово «почетный» ближе к слову «мужчина», а «подчиняющаяся» — к слову «женщина».

Программисты стараются избавить векторные модели от появления подобных казусов: расширением выборки текстов или исключением наиболее странных случаев. Но эти случаи могут быть и полезны: например, в социологических исследованиях. В своей новой работе ученые из Стэнфордского университета при участии Дэна Журафски (Dan Jurafsky) использовали word2vec для построения векторных представлений слов из текстов Google Books и COHA (Corpus of Historical American English). Оба использованных ресурса позволяют искать материалы по годам: ученым, таким образом, удалось разбить тексты, датируемые в промежутке от 1900 до конца века, на десятилетия. Ученые построили векторные представления слов, наиболее соответствующие женщинам и азиатам, и сравнили их с доступными демографическими данными за каждый период. 

Исследователям удалось обнаружить корреляцию (p < 0,003) между векторными моделями и реально распространенными профессиями среди женщин за каждый период. Тем не менее авторы отметили, что даже в тех профессиях, где число женщин и мужчин было примерно равным, перевес векторных моделей связанных с ними слов был в сторону мужчин — поэтому ученые проследили и за уклоном в сторону гендера в течение времени. Оказалось, что и различия в самых востребованных профессиях и связанных с ними векторных представлениях слов уменьшались, начиная с 50-х годов, приближаясь к нулю: это означает, что со временем гендерный уклон в профессиях снижался. То же самое происходило и для группы этнических меньшинств: в данном случае — азиатов.

Затем ученые решили посмотреть, как изменялись наиболее близкие к женщинам и азиатам прилагательные, и как эти изменения связаны с реально происходившими в соответствующее время событиями в США. Так, например, в 1910-х годах среди самых близких к женщине словам были «мечтательная» и «милая», в 1950-х — «безвкусная» и «согласная», а в 1990-х — «искусственная» и «ненатуральная». Изменились векторные представления и для азиатов: в 1910-х их описывали как «завистливых», в 1950-х — «неорганизованными», а в 1990-х — «сдержанными».

Исследователи сравнили коэффициенты корреляции между самыми распространенными прилагательными для женщин и азиатов по годам. Оказалось, что коэффициент падал (то есть прилагательные стали сильно отличаться) для слов, связанных с женщинами, начиная с конца 60-х годов: в то время в США процветало феминистское движение. Слова, описывающие азиатов, начали различаться в начале 60-х — во время второй волны иммиграции из стран Азии — а также в начале восьмидесятых, когда прирост новых иммигрантов слегка уменьшился, а у старых появились потомки.

Изменения в языке отражают и изменения в обществе, которое этим языком пользуется. Речь идет не только о масштабных изменениях, которые происходят и оседают в течение нескольких столетий: изменения — даже происходящие в течение сравнительно малого времени — хорошо отображает лексика. Авторы статьи показали, что даже «ошибки», от которых разработчики пытаются избавиться, анализируя естественный язык автоматически, могут служить инструментом и для его изучения, и для изучения группы его носителей.

Использование векторного представления слов может пригодиться и для создания совершенно новых инструментов. Например, в прошлом году ученые применили word2vec для написания поваренной книги для кухни в стиле фьюжн: в ней есть рецепт лазаньи, которой адаптирован для японцев и включает в себя рис. А вот американские ученые на основе анализа научных публикаций научились предсказывать результаты процесса получения материалов.

Елизавета Ивтушок

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
«Алиса в Стране чудес» помогла установить универсальность речевой обработки мозгом

Американские ученые провели самое масштабное на сегодняшний день исследование универсальности человеческой речи на уровне работы головного мозга. Изучив активность мозга носителей 44 языков из 11 различных языковых семей и одного языка-изолята в процессе прослушивания отрывков из «Алисы в Стране чудес» и других текстов, исследователи выделили несколько схожих паттернов речевой обработки. Так, среди всех участников исследования активность мозга во время обработки речи наблюдалась в лобной, височной и теменной долях, была локализована, в основном, в левом полушарии, а также отличалась от активности, наблюдаемой во время выполнения других задач. Статья опубликована в журнале Nature Neuroscience.