Гениальная задача математика решена ИИ GPT-5.4

Польский математик Бартош Наскрэнцки создал сложнейшую задачу для ИИ, которая демонстрирует ограничения нейросетей в глубоких математических размышлениях.

Число просмотров: 2

Польский математик бросает вызов ИИ

Бартош Наскрэнцки, польский математик и вице-декан факультета математики и информатики Познаньского университета имени Адама Мицкевича, разработал задачу, которую современные нейросети не могут решить. Его работа базируется на 20-летнем опыте и имеет предельно высокий уровень сложности.

В июле 2025 года Наскрэнцки публично выразил свою точку зрения: ИИ — это всего лишь очень продвинутый калькулятор, неспособный на настоящее глубокое математическое мышление. Он решил продемонстрировать это, создав сложную задачу для бенчмарка FrontierMath от Epoch AI, который относится к Tier 4 — высшему уровню сложности.

Сложная задача на стыке теории и практики

Возникающая задача объединяет в себе элементы теории Галуа, алгебраической геометрии и арифметики. Перед отправкой в тестирование Наскрэнцки протестировал её на модели o4-mini-high, и результат оказался неудовлетворительным — ИИ не смог справиться с задачей. После этого он ещё больше усложнил её, сделав почти нерешаемой даже для экспертов.

FrontierMath представляет собой набор сотен задач, которые нейросети пока не могут решить. Математики тратят часы или даже дни на разбор этих задач. В команде проекта были профессора, авторы олимпиад и лауреаты Филдсовской премии, всего более 60 специалистов.

Реальные пределы ИИ

Популярные модели ИИ, такие как Claude 3.5 Sonnet, o1-preview, GPT-4o и Gemini 1.5 Pro, показали слабые результаты, правильно решив лишь 2% задач. В то же время, в более простых тестах вроде GSM-8K или MATH они набирают до 90%. Именно поэтому FrontierMath важен: он служит индикатором реальных пределов возможностей ИИ и позволяет отслеживать прогресс в этой области.

Скрытые задачи и внутренние проверки

Не все задачи будут опубликованы — команда Epoch AI скрывает некоторые из них, чтобы избежать загрязнения данных для обучения моделей. Тестирование используется только для внутренних проверок.

Доказательство математических истин

Представьте себя на месте Наскрэнцки. Годы изучения абстрактных структур, где каждый неверный шаг может привести к краху. В то время как ИИ пытается найти ответ, как школьник на экзамене, часто забывая учитывать нюансы, такие как поля и траектории. Также можно вспомнить физический пример с заряженным конденсатором, где понимание процесса имеет критическое значение.

Интересный пример: сверните двусторонний скотч в ленту Мёбиуса. Получится одна бесконечная клейкая поверхность. ИИ может ошибочно думать, что «клей склеит все», в то время как математика утверждает обратное — у Мёбиуса всего одна сторона.

Роль бенчмарков в математике

Такие бенчмарки, как FrontierMath, полностью меняют подход к оценке интеллектуальных машин. Они проверяют не только решение, но и сам процесс доказательства. ИИ, которому удастся решить хотя бы одну задачу FrontierMath, войдёт в историю, но на данный момент Наскрэнцки прав: машины умеют считать, но не мыслят.

Изучайте математику самостоятельно. Берите простые задачи из олимпиад и тестируйте ИИ на примерах, подобных FrontierMath. Не забывайте следить за готовыми сценариями по автоматизации для бизнеса от Epoch AI, которые помогут вам в обучении и саморазвитии.