Диффузионная языковая модель Mercury 2 от Inception Labs

Mercury 2 — революционная диффузионная архитектура, преображающая генерацию текста с высокой скоростью и качеством. Интеграция в API и доступная цена делают её идеальным решением для бизнеса.

Число просмотров: 3

Революционная диффузионная архитектура Mercury 2

Mercury 2 меняет подход к генерации текста в языковых моделях. Вместо последовательного предсказания токенов слово за словом, модель создает черновой ответ целиком и итеративно его улучшает, подобно работе редактора, который правит весь текст сразу, а не просматривает отдельные слова.

Принципиальное отличие от традиционных моделей

Обычные языковые модели строят текст слева направо по одному токену за раз, используя технику авторегрессии, когда каждое слово ждет всех предыдущих слов перед появлением. Mercury 2 начинает с полностью скрытого контента и постепенно раскрывает все части ответа одновременно, обрабатывая разные фрагменты текста параллельно.

Вдохновленные техниками из моделей генерации изображений, такими как Stable Diffusion и DALL-E, разработчики применили подход, основанный на маскировании. Этот метод позволяет модели уточнять выходные данные и устранять ошибки, поскольку она не ограничивается рассмотрением только ранее сгенерированного текста.

Производительность Mercury 2

Достигнутые показатели производительности впечатляют. Mercury 2 достигает скорости более 1000 токенов в секунду на графических процессорах NVIDIA Blackwell, конкретно 1009 токенов в секунду. При полной задержке в 1,7 секунды модель генерирует ответы намного быстрее конкурентов. Для сравнения, Gemini 3 Flash с режимом рассуждения выдает ответ за 14,4 секунды, а Claude Haiku 4.5 требует 23,4 секунды.

Качество вывода

Как показывает практика, качество вывода остается конкурентоспособным, несмотря на скорость. Mercury 2 демонстрирует результаты, сопоставимые с Claude 4.5 Haiku и GPT-5.2 Mini, что важно для практического применения. Модель поддерживает контекстное окно объемом до 128000 токенов, работу с инструментами и выдачу ответов в формате JSON с возможностью настройки режимов рассуждения.

О компании

Стартап Inception основан исследователями из Стэнфорда, UCLA и Корнельского университета. Генеральный директор Стефано Эрмон известен как соавтор работ по диффузионным моделям, что обеспечило компании экспертизу в развитии технологии. В ноябре прошлого года компания привлекла 50 миллионов долларов от инвесторов, включая Microsoft, Nvidia и Snowflake.

Первый прототип был представлен в начале 2025 года, а запуск Mercury 2 означает переход к промышленной версии модели с полной поддержкой режимов рассуждения. Компания сразу ориентировала модель на практическое применение в различных областях.

Целевые применения

Целевые применения охватывают множество сфер, от интерактивного программирования и голосовых интерфейсов до RAG-конвейеров и корпоративной автоматизации. Mercury 2 особенно полезна для приложений с критичной задержкой, где пользовательский опыт не допускает паузы. Разработчикам нужны предложения автодополнения, которые появляются достаточно быстро, чтобы казаться частью собственного мышления. Сервисы голосовых ассистентов требуют минимальной задержки для естественного взаимодействия, поскольку голосовые интерфейсы имеют самый жесткий бюджет задержки в ИИ.

Интеграция и доступность

Интеграция в существующую инфраструктуру упрощена благодаря совместимости с API OpenAI. Компания уже предлагает доступ через API, позволяя интегрировать Mercury 2 в существующие стеки без серьезной переработки инфраструктуры. Mercury 2 также доступна через веб-чат для тестирования, а бизнес-клиенты могут подать заявку на ранний доступ к полнофункциональной версии.

Ценообразование

Ценообразование делает модель экономически привлекательной для масштабного внедрения. Стоимость составляет 0,25 долларов за миллион входных токенов и 0,75 долларов за миллион выходных токенов, что значительно дешевле многих конкурирующих решений. Для контекста, в компании отмечают, что главный барьер внедрения ИИ-агентов часто связан с стоимостью инференса, то есть выполнением запросов к языковым моделям.

Партнеры и будущее

Среди первых партнеров и инвесторов проекта значатся Menlo Ventures, Mayfield и M12. Инфраструктурную поддержку обеспечивает сама NVIDIA, предоставляя доступ к своим передовым GPU.

Если заявленные показатели подтвердятся на практике, диффузионная архитектура может стать новым этапом эволюции языковых моделей. Это развитие произойдет не за счет наращивания вычислительной мощности, а благодаря смене самого принципа генерации текста. Mercury 2 демонстрирует, что параллельная обработка информации открывает новые возможности для производительности и практического применения искусственного интеллекта в реальных системах.

Готовые сценарии автоматизации

Для тех, кто ищет автоматизации для бизнеса, стоит обратить внимание на готовые сценарии по автоматизации для n8n, которые помогут ускорить и упростить процессы.