Meituan запускает модель для диалогов в реальном времени

Meituan представила LongCat-Flash-Omni — мультимодальную модель с 560 миллиардов параметров, обеспечивающую качественный диалог, распознавание речи и визуальные образы с высокой скоростью.

Число просмотров: 4

Представление LongCat-Flash-Omni

Команда Meituan представила мультизадачную мультимодальную модель LongCat-Flash-Omni с 560 миллиардами параметров, из которых в процессе генерации активируются около 27 миллиардов. Это позволяет оптимизировать вычислительные ресурсы без потери качества. Система способна вести живой диалог в режиме реального времени, распознавать речь, видеть собеседника и отвечать голосом, что выводит взаимодействие с ИИ на новый уровень.

Архитектура и инновации

LongCat-Flash построена на архитектуре Mixture-of-Experts (MoE), которая активирует только часть параметров для каждого токена — от 18,6 до 31,3 миллиарда. Это обеспечивает эффективное использование вычислительной мощности и снижает нагрузку на оборудование. Ключевая инновация — механизм «Shortcut-connected MoE», который устраняет узкие места масштабирования за счёт перекрытия вычислений и коммуникаций между экспертами. В модели реализован PID-контролируемый контроль активации экспертов, что стабилизирует их распределение по токенам и повышает надежность работы.

Производительность и скорость

С точки зрения производительности LongCat-Flash показывает впечатляющие результаты в бенчмарках:

89,7% на MMLU (многоязычное понимание и рассуждение)
96,4% на MATH500 (задачи по математике)
73,2% на GPQA-diamond (вопросы с качественной оценкой)

В инструментальных и прикладных тестах, например на τ²-Bench Telecom, модель обходит несколько более крупные и закрытые конкурирующие системы.

Важной особенностью LongCat-Flash является высокая скорость работы — более 100 токенов в секунду при инференсе, а также поддержка обработки большого контекста — до 128 тысяч токенов. Это позволяет модели эффективно вести продолжительные диалоги и работать с большими массивами текста без потери связности и резкости ответов. Для конечного пользователя это означает более плавные и естественные беседы с ИИ, возможность хранить контекст переписки и длительные документы без обрезания истории.

Мультимодальное восприятие

LongCat-Flash-Omni расширяет возможности за счёт мультимодального восприятия: кроме текста она понимает аудио и видео, распознаёт визуальные образы и голос. Модель может взаимодействовать с пользователем не только посредством текста, но и через речевой интерфейс. Это делает ее универсальным инструментом для онлайн-ассистентов, сервисов поддержки и передовых приложений в области ИИ, где важна скорость, качество и разнообразие каналов общения.

Доступность и использование

Модель доступна с открытой лицензией MIT, что означает возможность её свободного использования и интеграции в коммерческие и исследовательские проекты. Такая открытость стимулирует развитие AI-экосистемы, поддержку кастомных решений и ускоряет внедрение новых технологий в бизнес. Meituan тем самым укрепляет позиции в сегменте ИИ, расширяя не только свой бизнес по доставке еды, но и влияя на рынок высокотехнологичных разработок.

Для разработчиков и пользователей доступны бесплатные тестовые версии LongCat-Flash-Chat. Благодаря сочетанию демонстративной мощности и масштабируемой архитектуры, модель уже используется как основа для создания диалоговых ИИ-ассистентов, способных слышать, видеть и отвечать голосом. Это открывает новые горизонты в коммуникации с машинами.

Рекомендации по применению

Таким образом, LongCat-Flash-Omni — это современный прорыв в области мультимодальных языковых моделей с акцентом на эффективное и быстрое взаимодействие в реальном времени. Она сочетает в себе гигантский интеллектуальный потенциал с инновационной архитектурой, минимально загружающей вычислительные ресурсы, что делает её выгодным решением для бизнеса и разработчиков, стремящихся к высокому качеству и масштабируемости ИИ-систем.

Рекомендуется использовать LongCat-Flash-Omni для построения голосовых помощников, мультимодальных интерфейсов и приложений с длительной памятью контекста. Важно учитывать современные требования к вычислительным ресурсам и распределять нагрузку, комбинируя её с возможностями архитектуры MoE, что позволит сохранять скорость реакции и высокое качество ответов. Также можно ознакомиться с готовыми сценариями по автоматизации для n8n, чтобы активировать потенциал технологии и внедрять её возможности в реальные продукты, чтобы сделать коммуникацию с машинами более естественной и удобной.