Английские «люди» оказались скорее мужчинами

Александр Дубов

Контекстуальный анализ интернет-корпуса английского языка показал, что собирательные существительные, которые используются для описания людей без указания пола, — не гендерно-нейтральные. Контекст, в котором используется слово people, оказался значительно ближе к «мужскому», чем к «женскому». Из-за этого, даже если люди используют формально нейтральные собирательные, они чаще подразумевают мужчин, чем женщин, пишут лингвисты в Science Advances.

Если похожие друг на друга объекты можно объединить в одну группу и рассматривать ее как единое целое, то в языке для нее обычно есть отдельное собирательное слово. В форме собирательных существительных кресла, столы и шкафы превращаются в мебель, молодые люди — в молодежь, а птицы — в стаю. Но если собирательные существительные описывают группу людей, то в них теряется информация о поле отдельных ее членов, и по умолчанию они могут быть и мужчинами, и женщинами в любом соотношении. Тем не менее ученые предполагают, что эти слова не всегда остаются гендерно-нейтральными и часто молча подразумевают, что ее члены — скорее мужчины.

В случае с существительными или местоимениями множественного числа аналогичное смещение баланса проявляется и на лексическом уровне: например в английском men (люди) или французском ils (они). Но гендерную нейтральность собирательных существительных оценить по формальным признакам нельзя. При этом, по мнению психологов и социолингвистов, когнитивные искажения, вызванные этим гендерным дисбалансом, могут влиять и на социальную среду, и на политические решения, и на самовосприятие человечества в целом или его отдельных сообществ.

И поскольку грамматических категорий, которые подтверждают или опровергают гипотезу ненейтральности базовых собирательных существительных, нет, то делать это нужно по каким-то другим признакам. Лингвисты из Нью-Йоркского университета под руководством Эйприл Бэйли (April H. Bailey) предложили для такой проверки в английском языке использовать контекстуальный анализ употребления слова people и других нейтральных собирательных существительных для групп людей. Ученые проанализировали корпус Common Crawl, который включает тексты примерно с трех миллиардов сайтов — суммарно в него входит 630 миллиардов слов.

Для анализа контекстов ученые использовали метод векторного представления употребляемых слов. Каждое слово при таком подходе представляется в форме многомерного вектора, который фактически показывает, в окружении каких слов интересующее нас встречается в корпусе чаще всего.

Всего ученые провели три исследования. Первое исследование — прямое сравнение. В нем лингвисты определяли, на что контекстуально больше похоже слово people — на men или women. Для этого они сравнили существительные и местоимения, которые в языке используются, чтобы обозначить мужчин (man, male, he и аналогичные им — всего 36 слов), женщин (woman, female, she и их синонимы — всего 38 слов) и людей в целом — без формального указания пола (person, people, they, humanity и тому подобные — всего 30 слов).

Во втором и третьем исследованиях лингвисты сравнивали уже не сами существительные, которые обозначают людей, женщин и мужчин, а смотрели на контекст, в котором встречаются 716 определений и 252 глагола для описания людей вне зависимости от их пола. Ученые сравнили, насколько часто эти слова встречаются рядом со словами для обозначения мужчин и женщин из первого списка.

Схожесть определяли, измеряя косинусный коэффициент — это косинус угла между векторами понятий в многомерном пространстве. Чем больше этот коэффициент, тем больше понятия похожи друг на друга. Если коэффициент равен единице, то сходство полное и контексты всегда совпадают. Если равен нулю, то контексты не пересекаются вообще никогда. Соответсвенно, если отдельно посчитать коэффициенты сходства между «мужским» и «собирательным» контекстами и «женским» и «собирательным» контекстами, то их разница должна, по мнению авторов, доказать, что people — это скорее men, чем women.

Во всех трех исследованиях «мужские» слова оказались намного ближе к собирательным словам, чем «женские». Разница в коэффициентах составила от 0,009±0,001 до 0,018±0,004 (p < 0,001) — всегда в пользу «мужского» контекста.

Кроме того, ученые проверили, как с контекстом связано использование определений и глаголов с выраженной гендерной окраской, которая появилась из-за культурной стереотипизации. Например: accommodating (гостеприимный/-ая), fault-finding (придирчивый/-ая), complicated (сложный/-ая) и gossip (сплетничать), kiss (целовать), complain (жаловаться) — для женщин, и forward (напористый/-ая), arrogant (высокомерный/-ая), rational (рациональный/-ая) и cheat (обманывать), respect (уважать), kill (убивать) — для мужчин. Разница в использовании «мужских» и «женских» стереотипных определений и глаголов оказалась более выраженной для «женских» существительных, чем для «мужских». Это, по мнению лингвистов, тоже подтверждает их изначальную гипотезу, что внутри собирательных существительных — по умолчанию скорее мужчины, чем женщины.

Авторы работы пришли к выводу, что когда в текстах люди пишут формально нейтральное собирательное people, они чаще подразумевают мужчин, чем женщин. Это искажение, в свою очередь, приводит к тому, что мужчины оказываются в более выигрышном социальном положении. Ученые надеются, что их результаты помогут каким-то образом смягчить это неравенство, в частности на уровне методов компьютерного анализа текста.

В отличие от контекстуальной гендерной ненейтральности для собирательных существительных, которая определяется культурой, у отдельных существительных, например для обозначения профессий, она проявляется на уровне лексики и грамматики. Смягчать дисбаланс предлагают, например, используя феминитивы. Подробнее об их истории вы можете прочитать в материалах «Доисторические феминитивы» и «Коварные суффиксы».

Александр Дубов

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

12.05.25 2.8 Подкасты Лингвистика

Возможны ли невозможные языки?

Наталия Слюсарь — об универсальной грамматике и нейросетях

Три сигмы Подкаст

Мнение редакции может не совпадать с мнением автора

Три сигмы при участии Иван Шунин

В 2023 году Ноам Хомский с коллегами написали для газеты New York Times колонку с красивым заголовком «The False Promise of ChatGPT». В этом тексте они призывают поумерить оптимизм в отношении даров, которые нам сулят все эти успехи больших языковых моделей. Более того, их внедрение, по мнению авторов колонки, представляет серьезную угрозу не только для науки, но и этики как таковой — оттого, что они несут в себе «фундаментально ущербные» понятия о том, что суть язык и знание.