Взлом нейросети: стихотворный запрос как метод

Исследователи обнаружили, что поэтические запросы могут обходить защиты языковых моделей, повышая риск получения небезопасного контента. Необходимы новые методы защиты!

Число просмотров: 6

Неожиданный способ обхода систем безопасности языковых моделей

Группа исследователей из лаборатории DEXAI совместно с учеными из университета Sapienza и Института Sant’Anna обнаружила неожиданный и эффективный способ обхода систем безопасности крупных языковых моделей (LLM) — оформление вредоносных запросов в виде поэтических стихов. Это значительно повышает вероятность получения запрещенного или небезопасного ответа от ИИ, без применения сложных кодов или уязвимостей в архитектуре моделей.

В ходе эксперимента команда создала около 20 стихотворений, каждое из которых содержало скрытую вредоносную инструкцию, но в форме метафор и художественных образов, а не прямого текста. Такие «опасные стихи» были протестированы на 25 языковых моделях ведущих разработчиков, включая Gemini 2.5 Pro, GPT-5, Claude Opus 4.1, DeepSeek R1, Qwen3-Max, Mistral Large 2411, Llama 4 Maverick, Grok 4 и Kimi-K2-Thinking. В среднем системы безопасности моделей пробивались в 60-62% случаев именно поэтическими запросами. У некоторых моделей, например Gemini 2.5 Pro, уровень обхода защиты достигал 90–100%: эта модель пропускала небезопасный контент во всех тестах с поэтическими запросами.

Интересно, что при автоматическом преобразовании обычных вредных инструкций в стихи из образцов, успех атак был ниже — около 43%, но всё равно существенно выше, чем у традиционных простых текстовых запросов. Этот факт дает понять, что именно художественная метафоричность и образность повышают шансы обхода.

GPT-5, в свою очередь, показал наибольшую устойчивость: лишь 0-10% «поэтических» атак удалось успешно провести, а при автоматическом создании стихов процент успеха падал до 1-5%. Однако исследователи предупреждают, что даже такой небольшой процент может стать проблемным при больших объемах потенциально вредных запросов.

Почему так происходит? Точных причин пока не определено, но ученые предполагают, что повышенная сложность восприятия метафорической, аллегорической и художественной речи приводит к затруднениям в срабатывании стандартных защитных фильтров, которые чаще настроены на прямолинейные и очевидные формулировки. Поэтическая форма меняет логику интерпретации запросов, что делает фильтры менее эффективными.

Особой уязвимостью отличаются крупные и многофункциональные модели, которые лучше интерпретируют сложные структуры языка, чем небольшие. Крупные модели, обученные на огромных корпусах и способные распознавать контекст, легче поддаются поэтическим обходам защиты, тогда как более маленькие модели с ограниченным обучением демонстрируют относительную устойчивость.

Этот способ обхода безопасности не требует технических «хаков» или вмешательства в код. Достаточно простого изменения стиля изложения — перевода прямой вредной инструкции в метафорический поэтический текст. Это значительно усложняет контроль за содержимым, так как фильтры основаны на гораздо более формализованных правилах и плохо справляются с художественной речью.

Для индустрии это означает вызов в виде необходимости переосмысления методов защиты. Текущие фильтры и контент-модерация не учитывают специфику художественного восприятия, а значит новая волна обходов может стать массовой. В числе предложений по решению проблемы — перепроектирование архитектур моделей с учетом обработки метафор и метаюзыка, проведение глубокого тестирования на различные формы художественных инструкций, а также развитие адаптивных систем мониторинга и раннего предупреждения.

Изучение поэтических обходов поднимает важные вопросы о безопасности и ответственности в сфере искусственного интеллекта. Недооценка таких тонких способов может привести к серьезным утечкам запрещенного контента, что особенно опасно в системах, доступных широкому кругу пользователей. Поэтому разработчикам необходимо учитывать художественные приемы как новую зону риска, а пользователям и экспертам — внимательно следить за развитием этой проблемы и вовремя реагировать.