Ученые давно пользуются статистическими методами, чтобы совершать открытия. В начале XVII века Иоганн Кеплер проанализировал астрономические измерения датского астронома Тихо Браге. Это привело к формулировке законов движения планет и впоследствии позволило Исааку Ньютону сформулировать закон всемирного тяготения. В середине XX века статистика помогла пионеру в области биоинформатики Маргарет Оукли Дейхофф секвенировать белок и проложить дорогу к секвенированию генома. Уже тогда в ранних исследованиях, столкнувшись с растущим объемами информации, ученые использовали компьютеры — однако уровень развития технологий не позволял работать с действительно большим количеством данных.
С конца 1990-х методы машинного обучения начинают активно развиваться, появляются новые архитектуры нейросетей и способы их обучения — обучение с подкреплением, сверточные и генеративные нейросети, трансферное обучение. Сегодня ИИ активно применяется в самых разных науках: от астрономии и биоинформатики до фармацевтики. Так, проект Deep Mind разработал нейронную сеть AlphaFold 2, которая предсказывает трехмерную структуру белка по последовательности аминокислот. С помощью машинного обучения астрономические данные, полученные в ходе наблюдений миссией «Кеплер», очищаются от артефактов и повторно анализируются — благодаря этому ученые сумели обнаружить 17 новых кандидатов в экзопланеты. Компания Novartis совместно с Microsoft использует ИИ, чтобы найти новые способы усовершенствовать и ускорить разработку лекарственных препаратов.
Обработать результаты современных физических или астрономических экспериментов силами одной только команды ученых зачастую невозможно. Наука становится все более сложной, поэтому инструменты, позволяющие облегчить задачу, востребованы как никогда: целые компании заточены под разработку нейросетей под нужды ученых. Однако разработки эти, как правило, только ассистируют людям. Часть научного общества считает, что в дальнейшем использование ИИ расширит границы традиционной науки.
Вполне возможно, что в будущем нейросети будет совершать научные открытия или с новой стороны открывать то, что уже известно науке, значительно чаще. Так, в эксперименте ученых из Швейцарской высшей технической школы Цюриха алгоритм сумел вывести физические законы из набора данных, переоткрыть гелиоцентрическую модель Солнечной системы и вычислить закон сохранения импульса.
Когда-нибудь ученые будут задавать алгоритму верное направление, а затем наблюдать за ходом исследования, перенаправляя его усилия в нужную сторону — совсем без участия человека даже в будущем обойтись нельзя. Для разработки нейросети-ученого, способного провести исследование от и до, потребуется специалист, способный написать креативный алгоритм, который будет оперировать сотнями формул и множеством научных законов. Такой человек должен хорошо разбираться в научном предмете (или привлекать консультантов) и методах машинного обучения.
Артур Залевский, к.б.н, зам. декана Факультета биоинженерии и биоинформатики МГУ им. М.В. Ломоносова:
Нейросети — всего лишь вычислительный инструмент. Они могут заменить и уже заменяют линейных сотрудников, если вам, допустим, нужно разметить изображение после микроскопии — здесь нейросети безумно хороши. Но живых исследователей, которые задают вопросы, они не заменят, думаю, никогда.
На мой взгляд, ключевой недостаток современных методов машинного обучения, и преимущественно нейросетей, что касается их применения в науки, а именно в биологии — это очень плохие данные для обучения. Сегодня мы видим исключительно то, что прошло естественный отбор, выжило спустя миллионы лет эволюции. И если не прикладываем большие усилия, то не можем увидеть отрицательный контроль: что не сработало и не получилось. Нейросети тренируются только на удачных примерах, поэтому ответить на вопрос о том, какова вероятность, что нечто не сработает, не могут. Это мешает их повсеместному внедрению в биологии.
Будущее, где нейросети самостоятельно совершают открытия, бесконечно далеко. Возможно, этого не случится никогда. Где они могут помочь людям? Как бы это парадоксально ни звучало — там, где нейросети справляются плохо. Как правило, когда ученые делают предсказания на нейросетях, они радуются высокой точности и специфичности — 97, 99 процентов. Об оставшемся проценте все забывают. Он никому не интересен. Но потенциально именно там не шум и не грязь, а новые сложные вещи, которые нейросеть, используя общие известные закономерности, объяснить не может. Как только они смогут предсказывать все вокруг — думаю, лет через 10 или даже через 5 это случится — с помощью нейросетей можно будет картографировать белые пятна биологических данных.