Деконструкция сложности

Яндекс.Толока помогла понять, легко ли читать новости на N + 1

Кирилл Игамбердиев

Одна из фирменных «фишек» N + 1 — «сложность» наших новостей и больших материалов, выставляемая их авторами. Читатели иногда упрекают нас в соцсетях за то, что мы завышаем или, наоборот, занижаем сложность той или иной заметки, но волюнтаризм есть волюнтаризм — как решил автор, так и будет. Тем не менее, нас волнует вопрос о том, как наша сложность соотносится с «общечеловеческой»: насколько то, что мы считаем сложным, считают сложным наши читатели? С помощью проекта Яндекс.Толока мы определили «читательский» уровень сложности и сравнили его с «нашим». Результаты нас удивили — оказалось, например, что в некоторых случаях читательская оценка вообще никак не коррелирует с редакционной. Впрочем, это уже спойлеры. Читайте о странной сложности заметок N + 1 в нашем материале.

Большинство читателей N + 1 обращает внимание, что каждый материал на нашем сайте оценен по десятибалльной шкале сложности — от 1.1 до 9.9. Но что означает эта оценка и как она формируется? Многих пользователей она ставит в тупик, так как зачастую кажется им не соответствующей воспринимаемой сложности текста.

По нашему замыслу, эта «сложность» отражает трудозатраты редактора на написание текста, что совсем не то же самое, что усилия читателя, потраченные на понимание написанного, но теоретически должна коррелировать с ними. Или не должна? Мы не знали этого сами, поэтому решили разобраться в вопросе вместе с Яндекс.Толокой — краудсорсинговой платформой для сбора массивов данных и выполнения типовых заданий реальными людьми.

Казалось бы, зачем нам Яндекс.Толока? Разве недостаточно спросить наших подписчиков в соцсетях, насколько им было сложно читать тот или иной текст? Однако подкованный в статистике человек сразу скажет, что этот вариант неидеален, так как подписчики N + 1 — это не случайная выборка, тогда как для объективной оценки необходимо учитывать ее смещение относительно среднего пользователя интернета, а это уже не так-то просто.

Хорошо известно, что качественные психологические исследования отличаются, в том числе, правильной выборкой респондентов. В таких случаях говорят, что выборка репрезентативна, то есть ее свойства соответствуют параметрам генеральной совокупности людей. Мы же знаем, что среди подписчиков соцсетей N + 1 преобладают люди молодого возраста, с высшим образованием и, что более важно, уже интересующиеся наукой. А это не соответствует портрету «среднего» русскоязычного читателя.

Инструмент

Именно поэтому, чтобы получить обратную связь от пользователей, менее вовлеченных в создаваемый нами контент, мы и решили воспользоваться услугами Яндекс.Толоки. Конечно, и тут выборка не идеальна, поскольку в Толоке преобладают люди хоть и разные, но при этом располагающие существенным количеством свободного времени и регулярным доступом в интернет. Но все-таки это менее заинтересованные в наших новостях люди, что позволяет надеяться на получение более объективных результатов.

Что такое Яндекс.Толока и как она работает?

Это платформа, предлагающая пользователям решать простые задания за вознаграждение. Например, это может быть сравнение удобства использования пары интерфейсов сайта, распознавание изображений или определение по контексту смысла многозначных слов.

Заказчиком может стать кто угодно. В частности, заказывают оценку релевантности поиска по сайту, модерацию контента, создание выборок для алгоритмов машинного обучения в области распознаванию речи, компьютерного зрения и классификации объектов.

Для обеспечения качественного выполнения используются контрольные задания с заранее известными ответами: если ответ пользователя слишком часто не совпадает с контролем, то его отключают от задания.

В Толоке всегда доступно много исполнителей, что дает возможность собирать много данных очень быстро вне зависимости от задачи.

Мы сформулировали для Толоки собственное задание на основе примерно 1000 материалов N + 1. Задание заключалось в том, чтобы прочитать несколько первых абзацев каждого материала и оценить усилия, необходимые для их понимания, по субъективной шкале сложности. Исходя из базовой гипотезы о пропорциональности усилий редакторов и сложности усвоения текстов, мы составили соответствующую шкалу.

Для отсеивания недобросовестных исполнителей в задание для отборочного этапа включался бессмысленный текст, сконструированный роботом из разных статей. Отбор проходили только те пользователи Толоки, кто, столкнувшись с таким текстом, ставил галочку в соответствующем поле — это означало, что человек расставлял сложность не механически, а вчитываясь в текст.

Пропустившие бессмысленный текст (то есть выставившие ему «нормальную» оценку), в рамках этого проекта блокировались. Блокировке подлежали и пользователи, ответившие на задание отборочного этапа слишком быстро. Всего было принято 79 процентов ответов.

Данные

Пользователи оценивали 939 вступительных отрывков наших материалов, каждый из которых был прочтен от 7 до 10 раз. Полученные данные позволили нам как протестировать изначальную гипотезу, так и выдвинуть ряд новых. Так, мы смогли оценить умение отдельных редакторов N + 1 оценить собственные тексты, а также получили статистику по разным рубрикам и за разные годы.

Оказалось также, что отрывок из материала Режим «Ностальгический» 90 процентов пользователей приняли за сгенерированный роботом, а еще два материала — Трансформеры: эра покупок и Онлайн: примарсение «Скиапарелли» — получили такую же оценку у 40 процентов посетителей Толоки.

Ниже мы познакомим вас с анализом полученных данных, который направлен на проверку заложенной в нашем определении сложности гипотезы о пропорциональности труда редактора и усилий, которые требуются пользователю для прочтения. Однако необходимо сразу отметить важную особенность такой постановки задачи — она предполагает наличие зависимости между сугубо субъективными показателями.

Конечно, в случае настоящего научного исследования так ставить задачу и, соответственно, работать с такими данными методологически неверно. Следовало бы, например, учитывать время, затраченное пользователем на каждый пример из нашей выборки, поскольку этот показатель поддается объективному измерению.

В более продвинутом варианте эксперимента можно было бы разработать метрику трудозатрат на прочтение, основанную на физиологических показателях читающего. Например, можно было бы фиксировать частоту его сердцебиения и дыхания или следить за характеристиками движений глаз. Но такие исследования не были бы в строгом смысле тестированием нашей изначальной гипотезы.

Анализ

Для начала посмотрим на картину в целом: построим зависимость средних арифметических оценок, полученных Толокой, от соответствующих значений сложности на сайте для всех 939 текстов.

Из этого распределения даже без дополнительных пояснений видно, что некоторая корреляция прослеживается, но достаточно слабая. Тем не менее, самые сложные, по нашим оценкам, материалы никто не отмечает как простые и наоборот — простые для нас тексты лишь в исключительных случаях показались пользователям Толоки сложными для понимания.

При взгляде на график сразу обращают на себя внимание вертикальные «щели» на месте целых чисел — это графическое отражение того факта, что редакторы N + 1 почти никогда не ставят своим текстам целочисленные оценки сложности, но только дробные. Такая традиция сложилась давно, и у наших редакторов нет единой версии, с чем она связана. Возможно, дробная оценка просто выглядит более «солидно». У двух материалов сложность оказалась ниже единицы, а у трех она почему-то равна нолю. И то, и другое — результат ошибок наших редакторов (во втором случае редакторы просто забыли выставить сложность).

Вторая примечательная особенность заключается в том, что наклон тренда на втором графике составляет меньше 45 градусов, как было бы, если бы наши оценки строго соответствовали читательским. Это можно интерпретировать как завышение сложности со стороны редакторов, то есть даже самые трудозатратные по мнению редакторов тексты не попали в категорию нечитаемых по мнению пользователей Толоки.

Вернемся, чуть-чуть назад: нужно объяснить, что такое корреляция и почему из графика следует, что она есть, но слабая, и что означает прямая линия на графике (если вы это знаете и без нас, просто переходите к следующему разделу).

В статистике корреляцией называют степень взаимосвязанности (без уточнения наличия причинности) двух величин. Наиболее часто говорят о линейной зависимости, хотя бывают и более сложные случаи, но мы остановимся на простейшем.

Если корреляция близка к единице, то наблюдается строгая линейная зависимость между величинами (и в этом случае прямая линия пересекала бы все точки с почти что идеальной точностью). Если корреляция близка к нулю, то линейной зависимости нет, хотя вполне может существовать более сложная связь.

Также необходимо отметить, что корреляция показывает степень близости данных к прямолинейной зависимости без уточнения ее крутизны. То есть, может быть высокая корреляция с очень пологой зависимостью, а может быть низкая корреляция с резко поднимающимся графиком.

Существует множество способов оценки степени корреляции или, как говорят в статистике, линейной регрессии данных. Мы будем пользоваться одним из самых простых — методом наименьших квадратов (МНК).

Идея этого подхода состоит в проведении такой прямой линии, сумма квадратов расстояний от точек распределения до которой будет минимальна среди всех возможных прямых. В принципе, МНК позволяет строить не только прямые, но и наиболее подходящие кривые сложной формы, но нам этого не требуется.

Вообще говоря, МНК в данном случае не будет самым подходящим инструментом, так как он предполагает малую ошибку в независимых данных (обычно это результаты работы измерительного прибора, откладываемые по оси абсцисс). Если данные зашумлены по обеим осям, то может возникнуть ситуация регрессионного разведения, в которой МНК может выдавать некорректные результаты (поэтому тут лучше пользоваться моделями с ошибками в переменных). Но в нашем сугубо иллюстративном случае мы останемся в рамках простейшего подхода.

Помимо линейного тренда на графике также показана величина R², которая называется коэффициентом детерминации. Это число показывает долю дисперсии зависимой переменной, которую удается объяснить рассматриваемой моделью.

Несколько неформально можно сказать, что R² показывает, насколько найденная линейная функция лучше аппроксимирует данные, чем горизонтальная прямая, проведенная на уровне среднего по всем точкам. Чем ближе R² к единице, тем лучше данная модель. Если R² равно нулю, то простое усреднение оказалось не хуже использованной регрессии.

Когда мы говорим о сильной корреляции, подразумевается, что R² велик, то есть данные хорошо описываются линейной функцией. Слабая корреляция соответствует невысокому значению R², то есть большой доле выбросов в данных, которые плохо описываются предложенной зависимостью.

Индивидуальный подход

Мы решили не ограничиваться общей оценкой всех материалов N + 1, но и посмотреть, как «выглядит» в глазах читателей сложность, назначенная нашими авторами. Для этого мы построили распределения по редакторам, у которых в выборке было больше 10 материалов.

Видно, что у разных редакторов разные отношения с оценкой сложности. В целом, некоторая корреляция прослеживается у всех редакторов, но у Василия Сычёва, Ольги Добровидовой и Николая Воронцова она заметно хуже. В случае Николая ситуация понятная — он как выпускающий редактор создает многие материалы на сайте, у которых оказывается формальным автором, хотя и не пишет их на самом деле.

Другое дело Василий и Ольга. Если присмотреться, то становится понятно, почему у них не выражена зависимость: они используют одни и те же оценки для подавляющего большинства своих текстов, а при добросовестном подходе это просто статистически маловероятно.

Получается, что эти редакторы сознательно искажают статистику, поэтому дальнейший анализ мы будем проводить для двух случаев: для полной выборки и сокращенной. В последнюю включим всех редакторов с заметным количеством материалов, кроме Василия и Ольги. Таким образом в ней окажется 611 отрывков из 939.

Исключение каких-то других текстов также может быть оправданно, так как их авторами могли выступать неопытные сотрудники, либо эти тексты вообще могут представлять собой материалы особенного рода, например главы из книг, анонсируемых на нашем сайте. Для них наша исходная гипотеза не подходит.

Посмотрим, как сокращенная выборка влияет на общий тренд.

В зависимости от рубрики

Теперь проанализируем распределения по рубрикам. Так как в нашей выборке есть тексты всех периодов существования сайта, то рубрик оказывается несколько больше, чем используется сейчас. Например, рубрики «Наука» на N + 1 больше нет, вместо нее мы в начале 2017 года ввели рубрики, названные в соответствии с различными научными дисциплинами.

Для начала посмотрим на полные данные.

Четыре рубрики выделяются низкой корреляцией — это «Гаджеты», «Оружие», «Роботы и дроны», а также «Экология и климат». В остальных случаях зависимость прослеживается, хоть и не везде одинаково хорошо.

Теперь возьмем информацию по тем же рубрикам из сокращенной выборки, то есть без текстов двух редакторов-«саботажников» и случайных текстов вроде отрывков из книг.

Далеко не везде заметны значимые изменения, в некоторых ситуациях корреляция стала даже несколько хуже. Особый случай — рубрика «Оружие». Она целиком и полностью наполняется материалами Василия Сычёва, поэтому без его вклада данные оказались вырожденными. Другие «проблемные» рубрики с низкой корреляцией изменились не очень сильно.

Распределение по сложности

Отдельно рассмотрим распределения сложностей в различные годы. В этом случае у нас субъективными оказываются только данные по оси ординат. В таком случае можно надеяться на более ясное проявление некоторой закономерности. В самом наивном простейшем случае можно было бы предположить, что данное распределение примет форму гауссианы, ведь согласно центральной предельной теореме сумма независимых одинаково распределенных случайных величин сама обладает нормальным распределением. Однако это допущение не должно строго выполняться, ведь редакторы (предположительно) не совсем случайным образом выбирают темы материалов.

Формы распределений для авторских оценок и оценок, полученных Толокой, заметно отличаются. В данном случае двугорбая форма графика наших оценок должна наводить на подозрение о наличии некоторых аномалий в данных. В то же время оценки Толоки распределены гораздо естественнее, хотя и напоминают скорее функцию плотности вероятности распределения Максвелла, чем гауссиану.

Теперь данные по сокращенной выборке.

На этот раз особенно хорошо видно, что сокращенная выборка с точки зрения статистики лучше полной — в ней гораздо меньше артефактов и искажений, а форма распределения более симметричная. Теперь основное отличие графиков заключается почти в полном отсутствии оценок выше 7 в данных Толоки.

Корреляция обнаружена

Из проведенного анализа можно сделать несколько выводов. Во-первых, в самом широком смысле нам удалось получить подкрепляющие изначальную гипотезу данные, однако их точность оставляет желать лучшего.

Во-вторых, показатели отдельных редакторов заметно отличаются: кто-то лучше умеет прогнозировать восприятие собственной работы читателями, кто-то хуже, чьи-то оценки вообще никак не коррелируют с пользовательскими. В-третьих, исходные данные вполне ожидаемо оказываются сильно зашумлены, но от некоторых искажений можно избавиться путем фильтрации.

Отдельно хочется обратить внимание на особенности линейных трендов. Они, с одной стороны, никогда не пересекают начала координат и обычно смещены, их коэффициент b, как правило, близок к двойке. С другой, их наклоны (коэффициенты a) далеки от единицы, из-за чего наиболее сложные по нашему мнению тексты получают в лучшем случае 6 или 7 баллов от читателей.

Этому можно придумать множество объяснений, но необходимо не забывать, что у нас по обеим осям субъективные данные, а ориентировочные пункты для пользователей Толоки были нами же и написаны. Получается, что высокая сложность по нашему мнению соответствует умеренной сложности прочтения или чуть выше, то есть даже самые зубодробительные тексты по физике не выглядят как нагромождение непонятных фраз.

Возможно, все дело в том, что, составляя примерную шкалу оценок для пользователей Толоки, мы сделали ее слишком «крутой». Если бы «десятка» в ней соответствовала не уровню оценки «вообще не могу прочесть», а чему-то вроде «можно понять, но приходится вспоминать термины и лезть в справочник», то и читательские оценки доходили бы до 9 с лишним баллов.

Тимур Кешелава

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

Паук-некробот, жамевю и облизанные камни

Рассказываем о лауреатах Шнобелевской премии 2023 года

Сергей Коленов