Рассказываем, как языковые модели решают открытые задачи
Чистая математика — работа человеческого разума, которая в то же время подчиняется строгим правилами логики. Естественно ожидать, что как раз в этой области искусственный интеллект мог бы себя проявить. Но только в последние месяцы чат-боты навострились решать открытые задачи, то есть такие, ответов на которые раньше не существовало нигде. Насколько хороши эти решения — и что будет дальше?
Математик Пал Эрдёш написал множество статей, в которых не только доказал сотни теорем, но и поставил в основном они касались свойств множеств чисел, а также графов, множеств точек на плоскости и так далее
Задачи Эрдёша — как решенные, так и нет — собраны на одноименном сайте, который создал Томас Блум из Манчестерского университета. Предложить дополнение или исправление к его содержанию может каждый. К проекту неоднократно привлекал внимание в своем блоге Теренс Тао — известный математик, которому интересны и коллаборативные математические проекты, и наследие Эрдёша. Небезразличен Тао и к применению современных технологий машинного обучения к чистой математике.
При поддержке Тао сайт приобрел известность в математической среде, и с этим удачно совпали еще несколько обстоятельств:
Под влиянием этих факторов задачи Эрдёша превратились в бенчмарк математических способностей ИИ: энтузиасты применяли общедоступные чат-боты к нерешенным вопросам из списка и делились результатами там же в комментариях.
Первых успехов они добились в конце 2025 года, когда с помощью ChatGPT некоторые открытые проблемы удалось перевести в категорию решенных. Правда, успехом это можно было назвать только с оговорками: в некоторых случаях ИИ проделал исключительно хорошую работу по поиску уже существующего решения; в иных же случаях он как будто находил собственное решение, но при ближайшем рассмотрении оказывалось, что оно все-таки уже где-то встречалось — а разработчики приложили большие усилия, чтобы языковые модели Здесь и далее мы будем писать, что модели что-то «прочитали» или «доказали», при этом не имея в виду, что они способны мыслить, подобно людям. Модели тренируются на корпусе обучающих данных и затем производят полезные тексты, которых в нем не было.
Чтобы ориентироваться в потоке новых результатов, в конце прошлого года Теренс Тао создал на GitHub страницу, где начал собирать информацию о вкладе ИИ в решение задач Эрдёша. Поначалу в разделе, озаглавленном «Самостоятельный вклад ИИ. Наличие литературы: сопоставимая литература неизвестна. Человеческое участие: незначительно» не было ни одной строчки, отмеченной зеленым — то есть указывающей, что чат-бот предложил полное решение задачи. Но продолжалось это недолго.
К концу 2025 года Кевин Баррету, 21-летний второкурсник-математик из Кембриджского университета, уже несколько месяцев регулярно тестировал способности новейших языковых моделей к математическим рассуждениям. Когда вышла ChatGPT-5.2 Thinking, он понял, что по сравнению с предшественниками и конкурентами она способна на большее. К тому времени у Баррету уже был опыт с задачами Эрдёша: он справился с открытой задачей под номером 481 и даже формализовал решение — правда, выяснилось, что решение этой задачи уже было в литературе.
Теперь же Баррету и его приятель Лиам Прайс, 23-летний любитель математики, вооружились ChatGPT-5.2 Pro — еще более продвинутым вариантом модели, доступ к которому получили от знакомых, и стали испытывать его на разных открытых задачах Эрдёша. И уже в начале января 2026 года (после еще одной осечки, подобной истории с задачей номер 481), их усилия принесли результат: первую полностью автономно решенную ИИ задачу Эрдёша под номером 728.
Решение задачи номер 728 от Баррету, Прайса и ChatGPT получилось сравнительно кратким и, главное, было формализовано, поэтому никто не сомневался, что оно верно. Все сошлись во мнении, что задача не была особенно уж сложной и оставалась нерешенной лишь потому, что никто из математиков не взялся поработать над ней действительно серьезно. Но все же первый математический результат, практически полностью автономно полученный ИИ, стал знаковым.
Баррету рассказал, как выстроил работу с языковыми моделями:
Это потребовалось из-за того, что как только модель узнавала, что имеет дело с более-менее известной открытой проблемой, она тут же «деморализовывалась» и никак не выдавала полное решение, даже неверное. Трудно сказать, насколько долго этот неожиданный трюк останется актуальным, но для успеха Баррету он оказался необходим.
Чтобы пропустить через этот конвейер сотни задач, Баррету предлагает также использовать ИИ-агента — Codex (родственник ChatGPT) или Claude Code.
Успеху Кевина Баррету способствовало несколько факторов:
На первопроходцев немедленно обрушилось внимание со стороны математиков, журналистов и разработчиков ИИ. Это помогло и им, и другим энтузиастам применения искусственного интеллекта в математике развить успех.
В январе 2026 года Баррету с несколькими соавторами решили задачу Эрдёша об иррациональности сумм определенных быстро сходящихся рядов Название отсылает к имени древнегреческой богини истины.
Были и другие успехи. Так, недавно Лиам Прайс доказал с помощью ChatGPT-5.4 Pro теорему о такие множества натуральных чисел, в которых ни одно число не делится ни на какое другое
А самого громкого на данный момент результата добились в компании OpenAI с помощью пока закрытой для общего использования модели — опровержение гипотезы Эрдёша о разумеется, тоже в списке задач Эрдёша — номер 90
На первый взгляд кажется, что это должно быть верно: чтобы получить как можно больше пар на расстоянии 1, хочется расположить их в какую-нибудь регулярную решетку, например квадратную или треугольную, и тогда количество пар на расстоянии 1 будет приблизительно 2n или 3n соответственно — то есть действительно порядка n. Однако ИИ показал, что можно добиться количества пар порядка na, где a есть некоторое число строго больше 1 — стало быть, больше, чем порядка n.
Этот результат примечателен как минимум по двум причинам. Во-первых, гипотеза о единичных расстояниях — это действительно известная и сложная задача. Предложенное моделью от OpenAI решение далеко не тривиально и, несомненно, может быть опубликовано в сэр Тимоти Гауэрс пишет, что статья подходит для Annals of Mathematics
Всего на момент написания этого текста на странице Теренса Тао числится 17 штук одних только задач Эрдёша, полностью решенных искусственным интеллектом без содержательной помощи человека.
Тестовый челлендж
Все эти события возродили одну почтенную и любопытную математическую традицию: бросать вызов коллегам-математикам. В XVI веке ученые соревновались в решении кубических уравнений, а в XVII веке — бились над задачей Бернулли о брахистохроне. Теперь же звездная команда математиков бросила вызов большим языковым моделям.
В феврале 2026 года проект в переводе с английского «первое доказательство» либо «брожение в объеме» — стадия приготовления теста, когда из него еще не слепили желаемую форму задачи возникли из математической практики авторов проекта и были решены ими же
10 июня завершился второй этап проекта First Proof. На этот раз желающие поучаствовать предоставили автономные ИИ-системы организаторам, и те испытали их на новой десятке задач. На таких условиях решились участвовать лишь три команды математиков, а также компания OpenAI. Решения от участников уже оценивались всерьез. шесть решенных задач плюс одна, которую система почти наверняка решила бы, если бы не технические проблемы Также хотя бы одно верное решение поступило к задачам на темы: теория вычислимости, дискретная геометрия, теория вероятностей, теория решеток, комбинаторная топология и алгебраическая комбинаторика. Нерешенными остались задачи на метрическую геометрию, тропическую геометрию и алгебры фон Неймана.
Следующий этап запланирован на период с августа по октябрь 2026 года.
Поговорим наконец и о формализации, которая пока оставалась в тени. Любой человек, попытавшийся применить языковые модели к чему-то вроде математических задач, немедленно сталкивается с проблемой: ИИ относительно быстро может сгенерировать много текста, который необходимо проверять на истинность. Вот только у экспертов-людей совершенно нет мотивации этим заниматься, особенно если пользователь, получивший у ИИ решение, — никому не известный студент, как Кевин Баррету.
Вообще-то это абсурдная ситуация: вся суть компьютеров в том, что они умеют рассуждать безошибочно — и вдруг именно компьютерная математика оказывается ненадежной и требующей проверки. К счастью, здесь могут помочь уже не языковые модели, а обычные компьютерные программы. Например, Lean — интерактивная система-помощник для формализации и проверки теорем с открытым исходным кодом. Она отличается от аналогов в первую очередь мощной централизованной библиотекой определений и доказанных теорем Mathlib, большой популярностью, а также отсутствием багов математического «ядра».
Конечно, чтобы программа могла проверить доказательство, нужно сначала переписать его с человеческого языка на машинный. Этот процесс называется формализацией. Формализация доказательства всегда была довольно трудоемким и непопулярным занятием.
Большие языковые модели стали производить много математического текста — потенциально ценного, но наполненного ошибками. Вот тут-то формализация и проверка стали актуальными как никогда. Для некоторых языковых моделей, предназначенных в том числе, например, той, что решала задачи Международной математической олимпиады
Таким образом, чтобы избежать необходимости тратить время и труд людей-экспертов на проверку математических результатов, полученных большими языковыми моделями, нужно формализовать их и переложить работу по верификации на систему проверки доказательств. Но этот маневр будет иметь смысл только в том случае, если формализацией также займется ИИ. С этим пока не все гладко: из-за того, что Lean очень быстро развивается и меняется, за исключением Claude
Поэтому для автоформализации лучше использовать специализированные ИИ-инструменты. На этом поле два основных игрока, и оба выдают код для Lean. Первый — общедоступный и бесплатный Aristotle от компании Harmonic. Именно его Кевин Баррету применял к решению задачи номер 728, и похоже, что этому примеру полезно по возможности всегда следовать при работе с доказательствами, выданными искусственным интеллектом.
Второй известный инструмент автоформализации — Gauss от компании в которой некоторое время проработал Баррету, совмещая занятость там с учебой в Кембридже
У Math Inc. весьма амбициозные планы по автоформализации известных математических доказательств, вплоть до классификации простых конечных групп. Впрочем, публикация полного организованного доказательства классификации пока так и не завершена, и ходят слухи, что в ее доказательстве был обнаружен пробел. Так или иначе, последний громкий успех Math Inc. — формализация доказательства Марины Вязовской о плотнейших упаковках шаров в 8- и 24-мерном пространствах.
Если доказательство автоформализовано, это еще не гарантия, что оно верно: при формализации доказываемых утверждений может быть допущена ошибка (а раз утверждение — не то, что было нужно, то уже неважно, доказано оно или нет). Кроме того, ИИ может эксплуатировать некоторые известные трюки, чтобы утверждение лишь выглядело доказанным. Например, в Lean есть директива «считать это утверждение верным без доказательства» под смешным названием «sorry» — и понятно, что через эту директиву можно «доказать» вообще что угодно. Тем не менее убедиться в отсутствии таких проблем гораздо быстрее и проще, чем проверить доказательство, записанное обычным человеческим языком. Именно поэтому первые решения задач Эрдёша, полученные от ChatGPT, были приняты безо всяких сомнений: они были формализованы.
Поскольку работа изрядной доли математиков связана с преподаванием, они не могли не заметить, насколько хорошо чат-боты решают задачи за студентов. Но прорыв в возможностях больших языковых моделей в исследовательской математике случился недавно и ограничен только самыми дорогими моделями из общедоступных. Возможно, поэтому очень многие математики не вполне еще осознают нынешний уровень возможностей ИИ.
Многие из них скептически или неприязненно относятся к компаниям-разработчикам, в частности, подозревая, что они что, конечно, и вправду случается
Опубликованную 2 июня Лейденскую декларацию об искусственном интеллекте и математике подписали более двух тысячи ученых. Преамбула документа пронизана беспокойством и тревогой. В ней авторы перечисляют «потенциальные угрозы», которые ИИ представляет для математики:
Подписи под документом оставили в том числе люди, которые относятся к языковым моделям с энтузиазмом, например Теренс Тао и Кевин Баррету. Однако, к примеру, Дэниел Литт не соглашается с отдельными идеями документа: обязательным атрибутированием результатов людям, даже если их полностью получил ИИ, или акцентом на публикацию в форме традиционных научных статей.
Математики, наиболее пристально следящие за успехами ИИ, такие как Теренс Тао, Дэниел Литт или сэр Тимоти Гауэрс, практически не сомневаются, что уже в обозримом будущем доказательство теорем — одна из основных составляющих работы математиков-исследователей — сможет быть полностью делегирована компьютерам: если цель — доказать теорему, то практически всегда быстрее и проще будет доверить это ИИ.
При этом все перечисленные люди — не мечтатели. Ими движет вполне благородный интерес к новым возможностям, а также прагматизм: они не хотят упустить возможность делать больше математики, хорошей и разной, реалистично оценивая текущие возможности новых инструментов. В некоторых разделах математики уже возможна продуктивная совместная работа человека и машины: обмен идеями, помощь от ИИ в технических моментах доказательства лемм и ускорение тем самым работы человека.
В то же время пока реальные успехи ИИ сконцентрированы в задачах типа эрдёшевских. Математика велика и разнообразна, а полезность передового ИИ крайне неоднородна. К примеру, которую предложил Мартин Хайрер — лауреат Филдсовской премии, как и уже упомянутые Тао, Гауэрс и Вязовская
В любом случае резонно ожидать, что темпы производства основного формального продукта математической научной работы — научных статей, отправленных в рецензируемые научные журналы — станет выше. Это означает, что вырастет нагрузка на журналы и традиционная модель публикаций перестанет справляться с обработкой поступающих математических работ (не то чтобы она блестяще справлялась уже сейчас).
Возможное решение этой проблемы — значительно более широкое внедрение формализации. Можно представить себе мир, в котором престижные математические журналы требуют, чтобы статья была дополнена формализованным доказательством. Тогда с плеч рецензентов, будь они людьми или языковыми моделями, можно будет снять огромную часть работы по рецензированию — проверку верности рассуждений и результатов.
Впрочем, формализацию и автоформализацию сообщество математиков тоже не воспринимает как безусловное добро. Даже до эпохи больших языковых моделей на формализацию часто смотрели свысока — еще в большей степени, чем на комбинаторику. Автоформализация теоремы о плотнейшей упаковке шаров и вовсе буквально огорошила редакторов Mathlib: они сочли ее потому что в истинности результата Вязовской для 8- и 24-мерного пространства и так не было сомнений, в отличие от аналогичного результата Хейлза для трехмерного пространства
Споры о том, как искусственный интеллект встроится в мир математики и перестроит его, продолжаются. Тем временем языковые модели показывают все более впечатляющие результаты — и не похоже, что этот процесс будет замедляться.
Чем решение уравнений напоминает детективную работу
Мнение редакции может не совпадать с мнением автора
Вычисления, уравнения и формулы одинаково понятны людям по всему миру. Тем не менее постижение этого «универсального языка» даже в школе может быть непростой задачей. В книге «Математика для тех, кто боится математики: Еще одна книга с дурацкими рисунками» (издательство «Альпина нон-фикшн»), переведенной на русский язык Марией Елифёровой, учитель Бен Орлин объясняет устройство математики по аналогии с языками: числа — это существительные, вычисления — глаголы, а алгебра — грамматика. Предлагаем вам ознакомиться с фрагментом, в котором уравнения сравниваются с детективными сюжетами.