Нейросети DeepMind научились решать задачи на уровне серебряных медалистов Международной математической олимпиады

Они справились с четырьмя из шести задач 2024 года

Google DeepMind разработала нейросетевые алгоритмы AlphaProof и AlphaGeometry 2, которые достигли уровня серебряного медалиста Международной математической олимпиады (IMO). Вместе они решили четыре из шести задач, представленных на олимпиаде в 2024 году, набрав в сумме 28 очков из 42 возможных, сообщается в блоге компании.

Международная математическая олимпиада (IMO) — это престижное математическое соревнование для школьников, которое проводится ежегодно с 1959 года. Задачи IMO известны своей сложностью и требуют нестандартного мышления. В последние годы олимпиада стала также важным тестовым полигоном для алгоритмов машинного обучения. Исследователи используют математические задачи с этого соревнования для тестирования навыков рассуждения (reasoning) у алгоритмов машинного обучения, то есть их способности анализировать информацию, делать выводы и приводить доказательства.

Так поступили и разработчики из Google DeepMind, которые недавно представили нейросети AlphaProof и AlphaGeometry 2, предназначенные для решения сложных математических задач. Оба алгоритма были протестированы на задачах Международной математической олимпиады 2024 года. Ее участникам предлагалось решить шесть задач повышенной трудности по алгебре, комбинаторике, геометрии и теории чисел. AlphaProof и AlphaGeometry 2 смогли решить четыре задачи, набрав в сумме 28 баллов из 42 возможных, что соответствует уровню серебряного призера соревнования (для золота в этом году необходимо было не менее 29 баллов).

Алгоритм AlphaProof решил две задачи по алгебре и одну по теории чисел, включая самую сложную, которую смогли решить только пять участников олимпиады. При этом две задачи по комбинаторике остались нерешенными. AlphaGeometry 2 легко справилась с геометрической задачей, решив ее всего за 19 секунд. На решение других задач было затрачено намного больше времени: одна из них была решена за несколько минут, а на оставшиеся ушло до трех дней. Стоит отметить, что по правилам олимпиады участникам отводится суммарно девять часов на решение всех шести задач.

AlphaProof содержит в себе предобученную языковую модель и основанный на обучении с подкреплением алгоритм AlphaZero. DeepMind ранее использовала его, чтобы превзойти человеческие результаты в таких играх, как шахматы, сёги и го (подробнее в нашем материале «Го: речь поражения»). Для доказательства математических утверждений в AlphaProof используется формальный язык Lean. Чтобы создать библиотеку задач для тренировки AlphaProof, исследователи DeepMind использовали донастроенную языковую модель Gemini, с помощью которой на Lean были переведены миллионы задач различной сложности. Получая на вход новую задачу, AlphaProof генерирует для нее различные варианты решений, а затем проверяет, могут ли они быть доказаны или опровергнуты. Каждое найденное и проверенное доказательство повышает способность алгоритма решать более сложные задачи.

Второй алгоритм, AlphaGeometry 2, сочетает в себе нейросеть с символьным движком. Модель была обучена на значительно большем объеме данных, чем ее предшественница, благодаря чему получила способность решать более сложные задачи, в том числе связанные с движением объектов и уравнениями углов, соотношений и расстояний. Из всех геометрических задач IMO за последние 25 лет AlphaGeometry 2 смогла решить 83 процента, в то время как предыдущая версия справлялась лишь с 53 процентами.

Кстати, в олимпиаде IMO-2024, которая проходила с 15 по 21 июля в Университете Бата в Великобритании, принимали участие и российские школьники. Им удалось выиграть четыре золотых и две серебряных медали.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Вокруг шум

Ученые AIRI рассказывают о своих статьях, прошедших отбор на NeurIPS 2023 года