Падение бенчмарка ARC и влияние оптимизации ИИ

ARC тест измеряет способности ИИ к обобщению и адаптации. Наша новая модель o3 достигла 85% на ARC-AGI-2, приближая ИИ к человеческому интеллекту.

Тест ARC: Испытание для Искусственного Интеллекта

Годами тест ARC считался практически непреодолимым препятствием для нейросетей, настоящим испытанием гибкого интеллекта, а не простого запоминания. Он был разработан как эталон для оценки способности искусственного интеллекта к обобщению, адаптации и решению задач, которые человек способен осилить за считанные секунды. В отличие от других бенчмарков, где ИИ мог полагаться на огромные объемы данных и вычислительные мощности, ARC требовал именно когнитивной гибкости — умения находить закономерности, строить логические цепочки и применять правила в новых условиях.

Первые версии теста предлагали абстрактные головоломки с цветными решётками. Системы должны были анализировать визуальные паттерны, выявлять правила преобразования и применять их к новым примерам. Большинство ИИ-моделей, даже самые мощные, справлялись с этим крайне плохо. В 2019–2024 годах результаты нейросетей оставались на уровне 1–2%, в то время как обычные люди без подготовки достигали 60–66%. Эксперты и команды из нескольких участников могли решить все задачи, демонстрируя полное покрытие тестового набора.

Ситуация начала меняться с появлением новых подходов к обучению и архитектуре моделей. В 2024 году появились системы, способные показывать заметный прогресс. Вторая версия теста — ARC-AGI-2 — стала ещё сложнее: задачи стали крупнее, многосоставнее, требовали больше шагов для решения. Средний человек тратил на них уже не секунды, а минуты. При этом тест был калиброван на реальных людях: из 400 участников отбирались только те задачи, которые решали большинство. Средний результат — 60%, эксперты — 100%.

ARC-AGI-2 внёс важные изменения. Он исключил возможность решения задач методом грубой силы — перебором всех вариантов с помощью огромных вычислительных мощностей. Вместо этого ввели метрику эффективности: ИИ должен был не просто найти решение, но сделать это быстро и с минимальными затратами. Это сделало тест ещё более объективным показателем реального интеллекта, а не просто вычислительной мощности.

Несмотря на эти улучшения, большинство современных ИИ-моделей продолжали проваливать тест. Открытые языковые модели, такие как GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, показывали результаты ниже 1%. Даже модели с элементами логического мышления, например, o1-pro от OpenAI и R1 от DeepSeek, не превышали 1,3%. Разрыв между человеком и машиной оставался огромным.

Однако в 2025 году ситуация резко изменилась. Новая модель от OpenAI, o3, продемонстрировала результат 85–87,5% на тесте ARC-AGI-2. Это стало настоящим прорывом. Ранее лучший результат среди ИИ был 55%, а средний человеческий — 60%. Теперь модель не просто приблизилась к человеку, но и превзошла его на значительно более сложном наборе данных. Успех o3 вызвал бурные обсуждения в научном сообществе и подогрел дискуссии о приближении к созданию общего искусственного интеллекта (AGI).

Ключевым фактором успеха стало использование методики поиска «цепочек размышлений» — последовательностей логических шагов, ведущих к решению. Система анализировала примеры, строила гипотезы, проверяла их и выбирала лучший вариант на основе эвристик. Это позволило модели эффективно обобщать и адаптироваться к новым задачам, не полагаясь на запоминание или перебор.

Важно отметить, что o3 была специально натренирована для прохождения тестов ARC-AGI. Её базовые возможности вне этого контекста остаются предметом споров. Тем не менее, достижение показало, что современные лаборатории ИИ способны преодолевать даже самые сложные барьеры, если сосредоточиться на оптимизации и разработке новых подходов.

Фонд ARC Prize Foundation, создавший тест, объявил о запуске конкурса Arc Prize 2025 с наградным фондом в 1 миллион долларов. Основной приз — 700 000 долларов за достижение 85% точности на ARC-AGI-2 с вычислительными затратами не более 0,42 доллара на задачу. Дополнительные призы — 125 000 и 175 000 долларов. Конкурс стартовал на платформе Kaggle и продлится с марта по ноябрь 2025 года.

Разрыв в эффективности между ИИ и людьми остаётся заметным. Эксперты решают задачи за 17 долларов, в то время как o3-low тратит около 200 долларов на задачу с точностью 4%. Однако сам факт, что ИИ сумел преодолеть барьер, ранее считавшийся непреодолимым, говорит о стремительном прогрессе в области искусственного интеллекта.

Тест ARC-AGI стал не просто бенчмарком, а индикатором реального интеллекта. Он показывает, что способность к обобщению, адаптации и эффективному решению задач — это не привилегия человека, а достижимая цель для машин. И хотя путь к настоящему AGI ещё долгий, каждый новый результат приближает нас к этой цели.

Если ты хочешь понять, насколько близко ИИ к человеческому интеллекту, следи за результатами ARC-AGI. Это не просто тест, а зеркало прогресса всей индустрии. И каждый новый рекорд — это шаг вперёд для всех нас.

Также, для тех, кто заинтересован в автоматизации для бизнеса, существуют готовые сценарии по автоматизации для n8n, которые могут значительно облегчить процессы и повысить эффективность.

Полезные ссылки

Наши соц. сети

0 0 голоса
Рейтинг статьи

Вам так же может понравиться

Об авторе: Admin

Подписаться
Уведомить о

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии