
ClockBench: Новый Бенчмарк для Оценки Способности ИИ К Распознаванию Времени
Исследователи разработали уникальный визуальный бенчмарк под названием ClockBench, который предназначен для оценки способности моделей машинного обучения распознавать время по аналоговым часам. Исследование выявило значительные трудности у современных искусственных интеллектов с подобной задачей. Лучшей моделью оказалась Gemini 2.5 Pro, которая правильно отвечала лишь на 13,3% вопросов, что значительно ниже человеческого результата — 89,1% точности.
Структура ClockBench
ClockBench содержит 180 изображений аналоговых циферблатов, представленных в различных стилях и с разнообразными положениями стрелок. Каждое изображение сопровождается четырьмя вопросами:
- Определить точное время.
- Подтвердить корректность отображения времени (присутствуют ошибочные варианты).
- Выполнить операции по прибавлению и вычитанию времени.
- Повернуть стрелки и перевести время между часовыми поясами.
Основные Результаты Исследования
Основные результаты показали, что даже лучшие модели совершают существенные ошибки — медианная погрешность определения времени у ИИ составляет примерно 1 час, тогда как люди ошибаются всего на 3 минуты. При этом, если модель правильно распознавала время, дополнительные связанные задания не вызывали у неё больших сложностей. Это говорит о том, что главная проблема — именно в первичном определении времени с аналогового циферблата.
Причина таких трудностей ИИ заключается в сложностях интерпретации визуальной информации о положении стрелок и понимании логики времени, особенно в случае нетипичных или преднамеренно некорректных изображений. В то время как для человека чтение аналоговых часов — автоматический навык, для ИИ это становится сложной когнитивной задачей из-за необходимости объединять визуальный анализ с понятиями времени и арифметики.
Потенциал Для Будущих Исследований
Датасет бенчмарка включает 36 типов различных циферблатов в пяти вариантах положения стрелок, что обеспечивает разнообразие форм и помогает комплексно оценивать навыки моделей. ClockBench стал первым специализированным инструментом для такого рода оценки и демонстрирует, что современные нейросети ещё не достигли уровня человеческой визуально-логической интуиции по распознаванию времени.
Таким образом, ClockBench показывает актуальный разрыв между человеческой и машинной способностью к восприятию нестандартных визуальных задач, иллюстрируя, насколько сложным остаётся для ИИ освоение привычных для людей задач преобразования визуального сигнала в понятную информацию. Для будущих улучшений моделей необходимо фокусироваться на развитии способности к взаимодействию визуальных данных с абстрактными концепциями времени и арифметическими операциями.
Значение ClockBench
Особенно важно отметить, что ClockBench является не просто тестом на распознавание изображения, а комплексным инструментом, который включает проверку корректности времени, арифметику со временем и перевод по часовым поясам, что делает его крайне полезным для комплексного анализа возможностей машинного обучения и нейросетей в работе с визуально-временными задачами.
Этот бенчмарк помогает понять, почему даже самые передовые модели, такие как Gemini 2.5 Pro, остаются на уровне 13,3% точности и насколько сложно создать универсальные ИИ, способные выполнять такие повседневные для человека задачи. В перспективе улучшение моделей по ClockBench может стать основой для развития более интеллектуальных систем, объединяющих визуальное восприятие и логическое мышление.
Переход на Beget для Управления Вашими Проектами
Если вы ищете надежный хостинг для размещения ваших проектов, обратите внимание на виртуальный хостинг Beget. Он предлагает:
- Использование быстрых SSD-дисков для высокой скорости загрузки сайтов.
- Поддержка установки более 30 популярных CMS в один клик.
- Встроенный файловый менеджер и планировщик задач (CronTab).
- Удобная панель управления с набором функций: управление доменами и почтой.
- Бесплатные SSL-сертификаты для обеспечения безопасности безопасных соединений.
- Тестовый период 30 дней с полным функционалом и бесплатный перенос сайта.
Не упустите возможность улучшить свои навыки автоматизации, подписавшись на наши соцсети:
- Telegram канал ProDelo — свежие новости по AI и автоматизации бизнеса.
- Общий чат ProDelo — задавайте вопросы по автоматизации и AI.
- Полезные видео на тему Opencart и AI на нашем Youtube канале.
- Также подписывайтесь на наш Яндекс Дзен канал и группу в ВК.