Деплатформинг структур

Почему кристаллохимикам все труднее доверять друг другу

Почти тысяча кристаллических структур в Кембриджской базе структурных данных оказались побочными продуктами конвейера фейковых научных статей. В ходе первой проверки данных независимого расследования, сотрудники кембриджского центра структурных данных уже аннулировали 12 кристаллических структур, а издательства отозвали 9 статей. Рассказываем, как и почему в структурной химии стал так популярен подлог данных.

Кембриджская база структурных данных (Cambridge Structural Database, CSD) — это большая база кристаллических структур, которая специализируется на органических и металлоорганических соединениях. В ней и ей подобных ученые размещают кристаллические структуры веществ — а также ищут здесь нужные для их работы соединения (от экспериментов до моделирования).

Каждая структура — это текстовый файл, который содержит информацию об условиях эксперимента по дифракции и данные о строении вещества: координаты атомов, параметры кристаллической решетки, распределение электронной плотности в молекуле и так далее.

Чтобы получить эту информацию, химики специально выращивают монокристаллы нужного вещества и проводят его рентгеноструктурный анализ (РСА). А чтобы данные о кристаллической структуре попали в общий перечень, их нужно опубликовать в рецензируемом научном журнале — либо в форме краткого сообщения прямо на сайте кристаллографической базы данных (перед одобрением его тоже рецензируют).

Анализ проводят на рентгеновском дифрактометре. Это лабораторный прибор, стальной шкаф с источником ионизирующего излучения внутри: в нем вращающийся кристалл вещества облучается рентгеновским излучением, а датчики регистрируют картину дифракции рентгеновских лучей на кристаллической решетке образца. По сути, химик получает данные о форме и интенсивности дифракционных пиков в зависимости от угла рассеяния. Из них на компьютере рассчитывается структура кристалла: сингония решетки и параметры элементарной ячейки, а по ним уже можно делать выводы о строении отдельных молекул, из которых состоит этот кристалл.

Сейчас РСА — рутинный метод. Дифрактометры стоят в каждом уважающем себя институте (по крайней мере, если брать США, Европу и Китай). Если у вас есть монокристалл, определить его структуру не составляет особенного труда. Поэтому кристаллохимики занимаются не столько совершенствованием метода, сколько анализом уже полученных структур, которые берут как раз из баз данных, типа CSD. По ним определяют, как кристаллизуются вещества с разным типом решеток, ищут закономерности в строении вещества и специфике межмолекулярных и межатомных взаимодействий в зависимости от состава и условий синтеза кристалла.

Самое сложное в этом деле — не анализ, а получение монокристалла, структуру которого вы хотите описать, засунув в дифрактометр. Кристаллизация может занять пару минут, а может не случиться вообще, сколько бы не старался экспериментатор.

При этом в сообществе сегодня принято приводить данные РСА в любой научной статье о строении нового вещества — хотя бы для одного из серии соединений с похожей структурой. А лучше, конечно, для конечного вещества в цепочке превращений. Есть случаи, когда для определения структуры достаточно и анализа попроще, но если химик стремится опубликовать статью по синтезу нового вещества со сложной структурой в журнале высокого уровня, скорее всего, ему придется выращивать монокристаллы.

История РСА началась, когда Макс фон Лауэ через 17 лет после открытия рентгеновского излучения решил направить его на монокристалл медного купороса. Увидев на фотографической пластине упорядоченную дифракционную картину, он убедился, что атомы в кристаллах тоже расположены упорядоченно. Так появилась кристаллохимия.

Теорию процесса разработали быстро — уже через год после эксперимента фон Лауэ появились статьи Уильяма Брэгга и Георгия Вульфа, которые вывели формулу для поиска максимумов дифракции излучения, рассеянного на монокристалле. Оставалась одна проблема: научиться точно определять кристаллическую структуру кристалла по его дифракционной картине. Сложность была в том, что при рассеянии кристаллом рентгеновских волн их фаза меняется за счет многократного отражения от атомных плоскостей в кристалле. И определить эти изменения фазы колебаний в эксперименте невозможно, а именно они нужны для определения структуры — от них, как и от интенсивности отраженных лучей, зависит функция электронной плотности в кристалле, из которой расcчитываются параметры решетки.

Проблему вычисления фаз решали еще 40 лет, и только в 50-x годах XX века нужные методы появились. Правда, до этого рентгеноструктурный анализ вовсю использовали для определения простых симметричных структур, например, графита и гексаметилбензола.

С середины века рентгеноструктурный анализ стал вездесущ. Его использовали для выяснения строения неизвестных молекул и кристаллических структур веществ. Тогда же появились два других метода структурного анализа — электронография и нейтронография. Они отличаются от РСА тем, что кристалл вещества облучают не рентгеном, а электронами или нейтронами соответственно. Эти два метода имеют свои преимущества, но источники нейтронов и электронов есть далеко не во всех лабораториях, да и сами дифрактометры в этом случае сложнее и дороже. Поэтому чаще всего химики используют именно РСА, как самый доступный и надежный метод.



Открываем фабрику

Сегодня данные РСА считаются гарантированным поводом для публикации в приличном журнале. Химик, видя в статье структуру, подтвержденную рентгеном, знает, что здесь все должно быть надежно, технической ошибки быть не может.

И не думает о том, кто этот анализ сделал. И зачем.

Впервые большая партия фейковых структур металлоорганических соединений, якобы полученных с помощью рентгеноструктурного анализа, нашлась в 2007 году, в журнале Acta Crystallographica Section E. Тогда 70 статей отозвали, а двух главных бутлегеров структур их работодатели уволили. Все фейковые статьи принадлежали китайским ученым.

Тогда подделку нашли в ходе тестирования программного верификатора структур, который редакторы Acta Crystallographica решили взять на вооружение. Программа заметила нехарактерные длины связей между металлом и лигандами — и вскоре стало ясно, что авторы работ брали уже известные структуры и буквально их копипастили, заменяя в процессе либо один ион металла на другой, либо органический фрагмент на похожий. Затем слегка меняли параметры элементарной ячейки, просто чтобы длины ребер и углы в ячейке отличались от исходных. В научной среде этот случай объясняли институциональным давлением на китайских ученых, карьера которых зависит от количества, а не качества публикаций (либо как минимум поощряется прибавкой к зарплате).

Это был первый случай подделки данных рентгеноструктурного анализа — никто не ожидал, что кому-то придет в голову заняться фабрикацией одного из основных методов физико-химического анализа. С другой стороны, это не так удивительно, если учесть, что ценность РСА очень высока: в химии металлоорганических соединений это самый достоверный способ выяснить структуру вещества, а в химии металл-органических каркасов – вообще практически единственный, не считая электроно- и нейтронографии (которые дороже).


Наращиваем производство

С развитием программного обеспечения для поиска фальшивых структур росло и мастерство бутлегеров. А вместе с ним росли и аппетиты: новое расследование Дэвида Бимлера (David Bimler), который раньше публиковался под псевдонимом Смат Клайд (Smut Clyde), указывает на 800 публикаций, которые, по мнению Бимлера, могут быть поделками фабрики фальшивых данных для научных статей. При этом личность автора препринта была неизвестна до недавнего интервью Nature, в котором Бимлер подтвердил, что Смат Клайд — его псевдоним. Расследователь использовал его, потому что считал, что специальность и квалификации автора не важны и не должны влиять на восприятие расследований (он по образованию психолог).

Почти каждая потенциально фальшивая публикация из списка содержит данные РСА как минимум для одного вещества — чаще всего металл-органического каркаса — и те уже занесены в CSD.

Реагируя на публикацию Бимлера, Кембриджский центр кристаллографических данных (Cambridge Crystallographic Data Centre, CCDC) 28 апреля объявил, что начал внутреннее расследование, направленное на поиск недостоверных структур в CSD. Пятого мая базу обновили: 992 структуры пометили как потенциально недостоверные, а 12, по данным портала Retraction Watch, удалили.

Еще одно объяснение такому изобилию фейковых публикаций с данными РСА (с полным списком можно ознакомиться здесь) наверняка связано с тем, что их сравнительно легко производить массово. Большинство работ, попавших под подозрение, включают синтез металл-органического каркаса или координационного полимера, данные о его кристаллической структуре и биологической активности – будь то цитотоксичность по отношению к раковым клеткам, туберкулезной палочке или чему-нибудь еще. У многих статей почти идентичные названия и почтовый адрес для корреспонденции, многие содержат грубые ошибки, ссылки на нерелевантные исследования. Также подделки выдает недостаток экспериментальных данных, очень похожие графики и стиль изложения, далекий от академического.

Например, статьи (раз, два), присланные китайскими учеными в журнал Zeitschrift für Kristallographie — New Crystal Structures, рассказывают о синтезе очень похожих гетероциклических карбоновых кислот и их кристаллических структурах. При этом формулировки некоторых предложений в двух статьях полностью совпадают, а методики получения монокристаллов для РСА в них не описаны. Часть вины тут, несомненно, лежит и на издателе: журнал специализируется именно на статьях с новыми кристаллическими структурами, и рецензентам вообще-то полагалось поинтересоваться, где эти данные. Тем не менее, обе работы не были ни дополнены, ни отозваны.


Захватываем рынок

Публикации, которые сейчас назвал подложными Дэвид Бимлер, начали выходить в 2015 году, и первые годы их выходило от одной до 15 штук. В 2018 году вышло 53, а в 2020 и 2021 — больше двухсот. Кажется, фальсификация биологических и структурных данных становится одним из modus operandi китайских исследователей, желающих продвинуться по карьерной лестнице.

И как справиться с таким приливом фальсификаций, пока неясно, потому что отличить честно полученную кристаллическую структуру от поддельной можно либо анализом схожих структур, который может дать неверный результат при хорошем качестве фальсификации, либо повторением эксперимента. А повторный рентгеноструктурный анализ может занять месяцы выращивания монокристалла. Который и не факт, что вырастет.

Михаил Бойм

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.