Уникальный бенчмарк AI World Clocks
Брайан Мур создал уникальный бенчмарк AI World Clocks, в котором девять различных моделей искусственного интеллекта — от GPT-3.5 до новейших Grok 4 и GPT-5 — получили задачу написать HTML и CSS-код для отображения аналоговых часов с правильным временем. Несмотря на высокий уровень развития этих моделей, ни одна из них не смогла корректно отобразить время на часах, что оказалось неожиданно сложной задачей даже для современных ИИ.
Сложности в реализации
В основе задания лежало создание адаптивных часов с анимированной секундной стрелкой и цифрами на белом фоне. Каждой модели предоставлялось по 2000 токенов для генерации кода, который затем выводился на экран. При этом требовалась точная установка всех стрелок (часовой, минутной и секундной), чтобы показывать заданный момент времени без ошибок. Но результаты показали, что ни одна из моделей не справилась с этой задачей полностью — часы либо неправильно устанавливали положение стрелок, либо анимация работала некорректно, либо присутствовали другие баги, мешающие правильному отображению.
Ограничения искусственного интеллекта
Этот бенчмарк подчёркивает, что даже самые современные ИИ, включая GPT-5 и Grok 4, обладают ограничениями в реализации сложных, многокомпонентных задач, требующих точных вычислений и контроля состояния. Проблема заключается в том, что языковые модели ориентированы на генерацию текста и инструкций, а не на строгую математическую точность и визуальное программирование. Они способны писать код, но в задачах со множественными зависимостями и требованиями к синхронизации элементов чаще совершают ошибки.
Пример работы алгоритмов
Для наглядности можно представить пример: часы состоят из трёх стрелок — секундной, минутной и часовой. Чтобы правильно отображать время, нужно преобразовать минуты и секунды в градусы поворота стрелок, что требует точных формул и умения моделировать анимацию во времени. Даже небольшие неточности приводят к неправильному показу времени, как это и наблюдалось у всех девяти ИИ, участвовавших в тесте.
Потенциал для улучшения
Такое исследование полезно для понимания текущих границ возможностей искусственного интеллекта в области программирования и визуализации. Оно показывает, что добавление новых поколений ИИ — даже с улучшенной архитектурой и увеличенной моделью — не гарантирует мгновенного решения всех задач, особенно в узкоспециализированных сферах с высоким уровнем технической сложности.
В будущем подобные тесты помогут улучшить генерацию кода ИИ, учитывая обратную связь и выявленные ошибки, а также развить подходы, сочетающие генерацию кода с автоматическим тестированием и отладкой. Если хотите проверить работу AI World Clocks или ознакомиться с примерами кода, то сайт бенчмарка предоставляет демонстрацию в реальном времени, показывая каждую минуту новые результаты от каждой модели, что позволяет увидеть отличия и типичные ошибки.
Заключение
Таким образом, проект Брайана Мура — это интересный и важный опыт, который документирует ограничения современных ИИ в точных инженерных задачах, способствуя дальнейшему развитию области искусственного интеллекта в программировании.
Полезные ссылки
- Заказ услуг по автоматизации
- Виртуальный хостинг Beget
- Аренда сервера с n8n
- Аренда VPN сервера от Beget
- Syntx AI — все нейросети тут
- Виртуальные карты для оплаты AI
Наши соц. сети
- Telegram канал ProDelo
- Общий чат ProDelo
- Бесплатный курс по n8n
- Наш Youtube канал
- Наш Яндекс Дзен канал
- Наша группа в ВК