Что статистика рассказывает о подброшенных наркотиках
Днем 6 июня в Москве был задержан журналист Иван Голунов. В его рюкзаке и в квартире полицейские нашли наркотические вещества. Редакция N + 1, как и многие коллеги, убеждена, что уголовное дело — пусть и закрытое сегодня — стало результатом профессиональной деятельности Ивана. В связи с арестом журналисты вспомнили об исследовании статистики об изъятых наркотиках, опубликованном сотрудниками Европейского университета еще в конце сентября 2017 года. Редакция N + 1 совместно с автором исследования Алексеем Кнорре и ректором РЭШ Рубеном Ениколоповым разобралась, как сделана эта работа и какие выводы из нее следуют.
Математическая статистика — это, в частности, набор инструментов, который позволяет определить, действительно ли в собранном наборе данных прослеживается действие изучаемого вами фактора, или же это результат случайного совпадения, недостатка данных, погрешностей, или воздействия других факторов.
В идеальном случае на первой стадии нужно сформулировать нулевую гипотезу — то есть с помощью модели описать, как могут выглядеть данные, если бы изучаемый фактор отсутствовал. Затем нужно сравнить данные эксперимента с этой модельной ситуацией, учитывая при этом все типы погрешностей — систематическую, статистическую и другие. Кроме того, нужно оценить вероятность того, что наблюдаемые отклонения — просто результат случайной флуктуации. После того, как все это сделано, можно говорить, проявляется ли в наблюдаемых данных эффект, который мы ищем, или нет.
В реальности у нас может быть недостаточно данных для того, чтобы сформулировать нулевую гипотезу — сами процессы, которые мы исследуем, могут не подчиняться вероятностным закономерностям. Но в некоторых случаях ничего не остается, как оперировать недостаточными с точки зрения идеальной статистики данными, и здесь ученым помогают (или не помогают) здравый смысл и логика.
Сотрудник Института проблем правоприменения Европейского университета Алексей Кнорре рассказывает, как он и его коллеги анализировали криминальную статистику.
«При возбуждении и процессуальном движении уголовного дела в России сотрудники всех правоохранительных органов — обычно это следователи — обязаны заполнять специальные статистические карточки, формы которых были утверждены в 2006 году. Мы использовали данные формы 1, карточки на выявленное преступление. Сначала карточки проверяются начальником следственного органа, потом прокурором района. Затем их переводят в электронный формат и передают в главный информационный центр в МВД, где хранятся данные о всех возбужденных делах в стране. Система сбора и хранения этих данных называется «МОСТ-Р», — говорит Кнорре.
Несколько лет назад Институт проблем правоприменения благодаря Генпрокуратуре РФ, Открытому правительству и Михаилу Абызову получил деперсонализированный срез этой базы за 2013–2014 год — на условиях нераспространения самих данных, но с возможностью их исследовать и публиковать результаты анализа. «Мы не можем выложить эти данные в открытый доступ, хотя было бы замечательно, если бы правоохранительные органы сделали это сами. Мой коллега Дмитрий Скугаревский превратил эти данные в огромную — пять миллионов наблюдений и сотни переменных — плоскую таблицу, а я занимался переводом данных в формат, пригодный для дальнейшей обработки», — поясняет Кнорре.
После преобразования массива статкарточек в пригодный для статистического анализа формат была получена база данных. Всего в ней содержатся сведения о 5356726 зарегистрированных преступлениях. Из них были отобраны 535678 преступлениях по «наркотическим» статьям — статьям 228–234 УК РФ. Из них, в свою очередь, были отобраны 68 процентов карточек, в которых были данные о типе наркотиков, а остальные 32 процента (примерно 170 тысяч) с неизвестным типом изъятого наркотика не учитывались в анализе.
Кнорре с коллегами проанализировали распределение масс изъятого вещества для трех типов наркотиков: гашиш, марихуана и героин. Все три графика показывают, что сотрудники полиции изымают чаще всего массу марихуаны, гашиша или героина, минимально необходимую для возбуждения уголовного дела, то есть находящуюся на границе значительного размера или чуть выше для каждого из этих наркотических веществ.
Так выглядит распределение для марихуаны:
А так для гашиша:
В случае героина видна парадоксальная с точки зрения здравого смысла вещь: люди, у которых изъяли героин (54211 случаев) гораздо чаще имеют героина чуть больше, чем нужно для более тяжкого состава 228 УК РФ (то есть больше крупного размера), и гораздо реже — чуть меньше. «Как будто они специально чаще носят с собой столько, чтобы в случае задержания получить более суровое наказание», — говорит Кнорре.
Для того, чтобы сделать вывод о наличии манипуляций, нужна нулевая гипотеза — то есть нужно описание картины, которая наблюдалась бы в отсутствие этого фактора. В этом случае такую картину сформировать очень трудно, потому что на самом деле достаточных для этого данных нет. Например, нужно знать:
Как в реальности — объективной, а не отражаемой криминальной статистикой — ведут себя наркопотребители и какие массы наркотика они обычно носят с собой.
Как ведут себя наркоторговцы — какие массы наркотика они продают, как фасуют и как распространяют.
Если бы, скажем, все торговцы наркотиками в стране в обязательном порядке взвешивали наркотики перед продажей и публиковали это в виде открытых данных, и так же себя вели наркопотребители, мы могли бы математически точно определить — есть ли манипуляции с массой изъятых наркотиков или нет. Но таких данных нет. Героин фасуется в пакетиках, тары как таковой нет, а единственная рыночная ниша для героина, которой соответствуют 0,5 и 2,5 грамм — это ниша, определенная порогами значительного и крупного размеров в УК РФ.
«Косвенный подход, который можно попробовать, заключается в том, чтобы посмотреть, какие массы обычно продаются на нелегальных торговых площадках в интернете. Я анализировал это для RAMP в рамках другого исследования в сентябре 2017 года. Там было видно, что, например, для марихуаны подавляющее большинство лотов — 1, 2 и 5 грамм, очень редко больше», — рассказывает Кнорре.
Но интернет-торговля, скорее всего, не отражает всей динамики наркорынка в стране, поэтому эти данные могут быть лишь иллюстрацией, но не доказательством.
Можно объяснить получившееся распределение в случае гашиша и марихуаны:
«Предположим, что больше марихуаны и гашиша изымается ниже значительного размера, но это не попадает в данные, потому что это административное правонарушение. Мы видим правый „хвост“ распределения, похожего на колокол, которое просто отсекается слева. Но это предположение, и чтобы его проверить, нужно получить от МВД данные о всех административных правонарушениях, где были изъяты марихуана, гашиш и героин, за 2013-2014 годы, но таких данных в открытом доступе нет», — говорит Кнорре.
Можно объяснить различие графиков в области крупного размера по марихуане и гашишу с одной стороны, и героину — с другой:
Нужно учесть, что 0,5 грамма и 2,5 грамма для героина — это очень близкие массы, в отличие от 6 (значительный размер) и 100 граммов (крупный размер) для марихуаны. Российская правоприменительная практика в 2013–2014 годы была такова, что смесь, содержащая активное вещество, приравнивается к активному веществу. Если у вас изъяли 2 грамма порошка, в котором 300 миллиграммов чистого диацетилморфина, то все 2 грамма будут считаться диацетилморфином. Если досыпать 600 миллиграммов муки, то будет крупный размер для героина.
Ректор Российской экономической школы Рубен Ениколопов, который занимался электоральной статистикой, считает, что формальные математические тесты не слишком пригодны для интерпретации такого рода данных.
«Количество наркотиков — это не случайная величина, она и не должна быть случайно распределенной. Если все честно, то ее выбирает клиент наркодилера, и у него абсолютно понятные мотивы. Если бы все зависело только от них, то распределение было бы то же, но оно было бы сдвинуто влево, то есть пики были бы слева от пороговых значений. Если бы, например, сажали за 4 грамма какого-нибудь наркотика, то пик был бы на 3,9 грамма. То, что мы видим эти пики справа от порогов, это абсолютно невыгодно. Не со статистической, а с логической точки зрения — это не может быть результатом выбора наркопотребителей. Это означает, что это делают, скорее всего, на стороне правоохранительных органов», — говорит Ениколопов.
В эту же сторону может сыграть различие в методике обработки, которую используют торговцы и полиция. Например, торговцам выгодно продавать чуть влажную марихуану (потому что так больше масса), а криминалисты обязаны высушить ее при температуре 110–115 градусов. Таким образом, еще более маловероятной выглядит ситуация, при которой задержанный с марихуаной в кармане будет нести чуть больше «положенного» — скорее, все будет ровно наоборот.
Кнорре и его коллеги анализировали данные только на 2013-2014 годы, но установленные пороги масс для значительной и крупной категории изъятых наркотиков за последние десятилетия несколько раз менялись.
Если бы удалось проанализировать, как сдвигались пики в этот момент, это был бы идеальный дизайн, который статистически строго показал бы наличие (или отсутствие) манипуляций просто при изменении законодательно заданных границ значительного и крупного размера. Но, к сожалению, более свежих данных нет — только за 2013–2014 годы.
По мнению Ениколопова, можно было бы посмотреть, меняется ли распределение массы в начале и в конце квартала, или в конце того периода, когда правоохранительным органам надо сдавать отчетность, растут ли эти пики. «Если это будет происходить, то станет понятно, что речь идет о манипуляциях, потому что наркопотребители те же самые, а график меняется в зависимости от срока сдачи отчетов», — считает он.
Сравнить российские данные с аналогичными зарубежными вряд ли получится. «Надо признать, что в области криминальной статистики Россия — одна из стран-лидеров в мире. Таких богатых данных почти ни у кого нет, а если есть, то чтобы их получить, нужно долго договариваться с правоохранительными органами», — объясняет Кнорре.
Материал подготовил Александр Ершов
До чего дошли системы предсказания преступлений — и за что их критикуют
Не так давно в Чикаго полицейская система предиктивной аналитики посчитала, что Роберт Макдэниел вскоре станет участником перестрелки. За ним было установлено наблюдение: патрульные стали захаживать в магазинчик, где он работал, навещать Макдэниела дома. В конце концов преступление действительно произошло. На Роберта совершили покушение местные бандиты, которые сочли, что раз полицейские стали проявлять к нему такое внимание, но до сих пор не арестовали, то он работает на них. Мы не знаем наверняка, происходили ли события именно таким образом, ведь эта история стала известна журналистам исключительно со слов самого Макдэниела, но предиктивные системы аналитики уже прочно вошли в быт американских правоприменителей. Последовать примеру США хотят их коллеги и в других странах. Младший научный сотрудник Института проблем правоприменения при Европейском университете в Санкт-Петербурге Дмитрий Серебренников рассказывает, что известно об устройстве этих систем — и какие возражения есть у специалистов к правосудию из черного ящика.