Израильские ученые представили программу, которая автоматически определяет понятность научного текста. Их алгоритм De-Jargonizer разделяет слова на три группы по частотности и при помощи простой формулы рассчитывает, насколько текст может быть понятен широкой аудитории. Протестировав программу на статьях журнала PLoS, ученые выяснили, что аннотации некоторых статей могут содержать до 27 процентов редко встречающихся слов научной лексики. Статья с описанием работы программы доступна для прочтения в PLoS One, а опробовать алгоритм можно на сайте.
Проклятие знания (англ. curse of knowledge) — это одна из форм когнитивного искажения, при которой компетентный человек сталкивается со сложностями при попытке объяснить что-либо своему незнающему собеседнику, ввиду того, что он не может поставить себя на его место и представить себе, что этого можно не знать. Например, с этим когнитивным искажением могут столкнуться ученые, выпускающие статьи в рецензируемых журналах и читающие лекции: использование специфической лексики может привести к тому, что определенная тема останется непонятной для слушателей и читателей. Исследования показывают, что для того, чтобы понять текст, читатель должен быть знаком с 98 процентами всех встречающихся слов, в то время как естественнонаучные тексты и литература компьютерной тематики могут содержать около четверти слов специфичной научной лексики.
Авторы новой работы представили De-Jargonizer — программу, которая обрабатывает научный текст и дает автору информацию о проценте содержания слов специфичной лексики и редких слов, а также показатель (в форме очков) того, может ли взятый текст быть понятен широкой аудитории. Для этого исследователи создали большой (500 тысяч уникальных вхождений) корпус научных статей. Слова в таком корпусе были разделены на три группы: частотные (2000 самых часто встречающихся слов английского языка и их словообразовательных форм), редкие (слова меньшей частотности) и жаргонизмы (слова научной лексики).
Алгоритм полностью рабочий, оснащен удобным интерфейсом и доступен для широкой публики. De-Jargonizer использует данный ему корпус для того, чтобы определить частотность каждого слова в тексте и отнести его к одной из трех групп (частотные, редкие или жаргонизмы) и вынести автору информацию о проценте содержания в его тексте слов каждого типа. На основании этого алгоритм затем определяет доступность текста для широкой аудитории и выдает сумму очков от 0 до 100.
Авторы проверили De-Jargonizer на 500 статьях из различных журналов издательства PLOS, специализирующегося на текстах различной научной тематики. Исследователи взяли аннотацию (abstract) и краткое резюме, написанное для широкой аудитории (lay summary). Результаты показали, что аннотации текстов по биологии содержат до 10 процентов слов специфичной лексики, в то время как резюме для широкой аудитории — около восьми процентов. Такой результат показывает, что, хотя и текст, написанный для широкой аудитории, содержит меньше научного жаргона, до понятности (текст должен содержать до двух процентов новой лексики, чтобы быть понятным) ему далеко.
Проблема проклятия знания является одним из самых распространенных недостатков академического письма. Автоматическое определение недостатков текста может помочь ученым избежать недопонимания при коммуникации с широкой, даже научной, аудиторией. Авторы планируют периодически обновлять корпус, используемый алгоритмом, а также включить в него другие языки.
Сложность текста не единственный параметр, по которому ученые могут быть «оторваны от реальности» с точки зрения других людей. Например, некоторые люди склонны считать ученых аморальными. А о том, как британские лингвисты используют корпусные технологии для того, чтобы предсказать динамику интереса британцев к политике, вы можете прочитать в нашей заметке.
Елизавета Ивтушок
И смогли различить незнакомые слова
Дети до двух лет способны быстро улавливать связь между грамматикой и смыслом и использовать эти знания для изучения новых слов. В экспериментах ученые показывали детям короткий видеоролик, на котором женщина с помощью разных игрушек разыгрывала сценки, произнося перед одушевленными предметы определитель ko, а перед неодушевленными — ka. Детям хватило нескольких просмотров ролика в течение четырех дней, чтобы усвоить эту взаимосвязь и различать изображения незнакомых игрушек на основании только определителя. Исследование опубликовано в Proceedings of the National Academy of Sciences. На втором году жизни дети начинают стремительно запоминать новые слова. В этом деле важно иметь какие-то ориентиры, которые помогают распознавать лексику, отличать одно слово от другого, объединять слова в группы. Возможно, дети уже в этом возрасте способны на каком-то уровне понимать структуру языка и синтаксические категории (части речи, маркеры падежей, определители или артикли) и опираются именно на это во время изучения новых слов. Теория синтаксического бутстрэппинга — об этом. Исследования показывают, что дети в 1–2 года действительно улавливают связи между грамматикой и смыслом и удивляются, когда кто-то их нарушает. Однако остается неясным, насколько быстро младенцы усваивают эти взаимосвязи. Моника Барбир (Monica Barbir) из Токийского университета вместе с коллегами из Канады и Франции проверила, могут ли младенцы быстро усваивать новые грамматические элементы в контексте своего родного языка и использовать их для изучения новых слов. Они показали 24 детям (средний возраст 19 месяцев) видеоролик, на котором женщина с помощью игрушек разыгрывает истории на французском языке, произнося выдуманные определители перед словами: ko перед названиями одушевленных объектов и ka перед названиями неодушевленных. Например, ka book (ка книга), ka tractor (ка трактор), ko rabbit (ко кролик) и kochiken (ко курица). Эти определители заменяли обычные французские артикли: un, une, le и la, употребление которых зависит от рода существительного — мужской или женский — и от контекста (un и une — аналоги неопределенного английского a, а le и la — определенные). Одушевленные предметы на видео с большей вероятностью были субъектами предложения — то есть сами что-то делали, а неодушевленные — объектами (пример: ko rabbit reads ka book — кролик читает книгу). Поскольку дети уже было знакомы с определителями, это гарантировало, что они не будут считать ka и ko словами, которые что-то значат сами по себе. Кроме того, известно, что дети различают одушевленные и неодушевленные объекты — и это распространено среди языков мира. Видеоролик дети смотрели три дня дома, и затем еще один раз — в лаборатории, суммарно просмотр занял около 30 минут. Каждый определитель встречался в ролике 30 раз. Затем младенцам показывали два изображения незнакомых для них предметов (одушевленного и неодушевленного) — например, игрушки-осьминога и игрушки-музыкального инструмента. Дети не знали названий этих игрушек. Исследователь называл один предмет вслух, используя перед названием ko или ka, и просил ребенка посмотреть на эту картинку. Название предмета тоже было выдуманным, в итоге получалась конструкция в стиле ko bamoule. Дети смогли верно определить, на какую из двух фотографий незнакомых предметов смотреть — чтобы в этом убедиться, ученые отслеживали движения их глаз с помощью трекера. Некоторые из участников смотрели на нужную картинку сразу, другие — только к концу испытания (оно длилось около 10 секунд). Часто взгляд детей скользил от одного изображения к другому. Однако на картинки с одушевленными предметами дети смотрели суммарно дольше, если слышали ko. Полученные результаты, по мнению авторов, говорят о том, что дети уже в 1–2 года могут усваивать синтаксико-семантические связи и использовать такие связи для изучения новых слов. Кроме того, эти связи они усваивают с поразительной скоростью. Авторы полагают, что причина — в особенностях распределения внимания детей. Когда ребенок узнает, что разные слова как-то связаны между собой, он сосредотачивается на этих взаимосвязях. Кроме того, дети вероятнее всего склонны использовать гибкие гипотезы вместо жестких правил и могут пересматривать эти гипотезы, если они вдруг не работают. Фонетическую систему родного языка дети усваивают раньше, чем произносят первое слово. И даже если они, вырастая, перестают говорить на этом языке, что-то остается в памяти: учить родной язык «заново» людям легче, чем учить чужой.