«Дежаргонизатор» сделает научный текст понятнее для широкой аудитории

Gravity Falls / Disney 2013

Израильские ученые представили программу, которая автоматически определяет понятность научного текста. Их алгоритм De-Jargonizer разделяет слова на три группы по частотности и при помощи простой формулы рассчитывает, насколько текст может быть понятен широкой аудитории. Протестировав программу на статьях журнала PLoS, ученые выяснили, что аннотации некоторых статей могут содержать до 27 процентов редко встречающихся слов научной лексики. Статья с описанием работы программы доступна для прочтения в PLoS One, а опробовать алгоритм можно на сайте.

Проклятие знания (англ. curse of knowledge) — это одна из форм когнитивного искажения, при которой компетентный человек сталкивается со сложностями при попытке объяснить что-либо своему незнающему собеседнику, ввиду того, что он не может поставить себя на его место и представить себе, что этого можно не знать. Например, с этим когнитивным искажением могут столкнуться ученые, выпускающие статьи в рецензируемых журналах и читающие лекции: использование специфической лексики может привести к тому, что определенная тема останется непонятной для слушателей и читателей. Исследования показывают, что для того, чтобы понять текст, читатель должен быть знаком с 98 процентами всех встречающихся слов, в то время как естественнонаучные тексты и литература компьютерной тематики могут содержать около четверти слов специфичной научной лексики.

Авторы новой работы представили De-Jargonizer — программу, которая обрабатывает научный текст и дает автору информацию о проценте содержания слов специфичной лексики и редких слов, а также показатель (в форме очков) того, может ли взятый текст быть понятен широкой аудитории. Для этого исследователи создали большой (500 тысяч уникальных вхождений) корпус научных статей. Слова в таком корпусе были разделены на три группы: частотные (2000 самых часто встречающихся слов английского языка и их словообразовательных форм), редкие (слова меньшей частотности) и жаргонизмы (слова научной лексики).

Алгоритм полностью рабочий, оснащен удобным интерфейсом и доступен для широкой публики. De-Jargonizer использует данный ему корпус для того, чтобы определить частотность каждого слова в тексте и отнести его к одной из трех групп (частотные, редкие или жаргонизмы) и вынести автору информацию о проценте содержания в его тексте слов каждого типа. На основании этого алгоритм затем определяет доступность текста для широкой аудитории и выдает сумму очков от 0 до 100.

Авторы проверили De-Jargonizer на 500 статьях из различных журналов издательства PLOS, специализирующегося на текстах различной научной тематики. Исследователи взяли аннотацию (abstract) и краткое резюме, написанное для широкой аудитории (lay summary). Результаты показали, что аннотации текстов по биологии содержат до 10 процентов слов специфичной лексики, в то время как резюме для широкой аудитории — около восьми процентов. Такой результат показывает, что, хотя и текст, написанный для широкой аудитории, содержит меньше научного жаргона, до понятности (текст должен содержать до двух процентов новой лексики, чтобы быть понятным) ему далеко.

Проблема проклятия знания является одним из самых распространенных недостатков академического письма. Автоматическое определение недостатков текста может помочь ученым избежать недопонимания при коммуникации с широкой, даже научной, аудиторией. Авторы планируют периодически обновлять корпус, используемый алгоритмом, а также включить в него другие языки.

Сложность текста не единственный параметр, по которому ученые могут быть «оторваны от реальности» с точки зрения других людей. Например, некоторые люди склонны считать ученых аморальными. А о том, как британские лингвисты используют корпусные технологии для того, чтобы предсказать динамику интереса британцев к политике, вы можете прочитать в нашей заметке.

Елизавета Ивтушок

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.