Провал GPT-5.2 в Sansa Bench
Через несколько дней после релиза GPT-5.2 от OpenAI модель провалилась в Sansa Bench — бенчмарке, оценивающем цензуру ИИ. Она набрала всего 0,324 балла, где высокий показатель значит большую свободу в ответах на запросы пользователей. Llama 3 8B-Instruct лидирует с 0,853, а Gemini 3 Pro Preview от Google вошел в тройку наименее цензурированных.
Представьте: вы просите ИИ сгенерировать креативный текст или решить нестандартную задачу, а он отказывает из-за «политики безопасности». Именно это и меряет Sansa Bench. GPT-5.2, хваленый флагман OpenAI, оказался самым скованным среди крупных моделей. Пользователи в шоке — модель бьет рекорды в кодинге и математике, но зажимает свободу.
Причины провала
Почему так вышло? OpenAI усилила фильтры после скандалов с предыдущими версиями. Разработчики ввели строгие правила, чтобы избежать вредного контента. В итоге GPT-5.2 отказывает в 70-80% спорных запросов, по данным тестов. Сравните с Llama 3 8B-Instruct: эта открытая модель от Meta отвечает почти на все, набирая лидерский балл.
Рейтинг Sansa Bench
Вот топ Sansa Bench по свежим данным:
- Llama 3 8B-Instruct — 0,853 (лидер, минимальная цензура).
- Gemini 3 Pro Preview — в тройке, Google балансирует свободу и безопасность лучше конкурентов.
- GPT-5.2 — 0,324 (худший среди флагманов).
Другие модели вроде Claude или Mistral держатся в середине, но OpenAI явно переборщила.
Достижения в других бенчмарках
Несмотря на провал в цензуре, GPT-5.2 сияет в других тестах. Она достигла 55,6% на SWE-Bench Pro — сложном бенчмарке по программированию на четырех языках. На SWE-Bench Verified — 80-82%, что значит больше реальных фиксов багов без человеческой правки. В математике — 100% на AIME 2025, почти идеал на длинных контекстах до 256 тысяч токенов. Галлюцинации упали на 30%, зрение улучшилось вдвое.
Критика и проблемы
Но критики бьют тревогу. Бенчмарки вроде ARC-AGI-2 (52,9%) или GDPval (70,9% побед над экспертами) обвиняют в «переобучении». Задачи из AIME висят в открытом доступе, малые модели их решают после доработки. Исследователь Мария Сухарева назвала цифры OpenAI «неподтвержденными» без деталей об обучении. Пользователи шутят: «Супер-ИИ, который кодит как бог, но боится плохих слов».
Что это значит для вас?
Если ищете мощный инструмент для кода или анализа — берите GPT-5.2 Thinking, несмотря на цену (1,75$ за миллион токенов). Для свободных бесед выбирайте Llama или Gemini. OpenAI обещает доработки, но «красный код» качества может усилить цензуру.
Тестируйте сами: запустите Sansa-запросы на GPT-5.2 и сравните с лидерами. Результаты шокируют — модель гением в задачах, но параноиком в общении. Конкуренция растет: Google и Meta давят, заставляя OpenAI выбирать между мощью и контролем. Следите за обновлениями — следующий релиз может перевернуть таблицу.
Полезные ссылки
- Заказ услуг по автоматизации
- Виртуальный хостинг Beget
- Аренда сервера с n8n
- Аренда VPN сервера от Beget
- Syntx AI — все нейросети тут
- Виртуальные карты для оплаты AI
Наши соц. сети
- Telegram канал ProDelo
- Общий чат ProDelo
- Бесплатный курс по n8n
- Наш Youtube канал
- Наш Яндекс Дзен канал
- Наша группа в ВК