Xiaomi Robotics запустила VLA-модель для роботов

Xiaomi Robotics 0 — первая открытая VLA модель с 4,7 млрд параметров. Она объединяет визуальное восприятие, понимание языка и генерацию действий для роботов.

Xiaomi Robotics 0: Революция в Робототехнике

Xiaomi Robotics 0 — это первая открытая VLA модель от компании с 4,7 миллиарда параметров. Она объединяет визуальное восприятие, понимание языка и генерацию действий для роботов, обеспечивая плавное управление в реальном времени.

Модель создана инженерами робототехнического подразделения Xiaomi. Она получает на вход изображение с текстовыми инструкциями и выдает команды для роботов. Основная фишка — устранение резких движений за счет низкой задержки инференса в 80 мс на RTX 4090. Представьте: робот видит полотенце на столе, слышит «сложи его аккуратно» и сразу начинает работать, без рывков, как опытный помощник на кухне.

Архитектура и Блоки Модели

Архитектура построена на Mixture of Transformers и разделена на два блока:

  • Visual Language Model (VLM). Он интерпретирует команды, даже расплывчатые вроде «убери беспорядок». Распознает объекты и понимает пространственные связи на изображениях высокого разрешения. VLM отвечает за логику и «мозговую» часть: обнаруживает предметы, отвечает на вопросы о сцене, строит рассуждения.
  • Action Expert на базе Diffusion Transformer (DiT). Не выдает одно действие, а генерирует целую последовательность движений — «блок действий». Использует методы согласования потоков для точности и плавности. Обучение на мультимодальных и моторных данных сохранило способность к рассуждениям при физических задачах.

Асинхронный вывод и стабилизация снижают задержки, делая робота устойчивым к изменениям окружающей среды.

Тестирование и Производительность

Xiaomi Robotics 0 тестировали в симуляциях LIBERO, CALVIN, SimpleEnv. Она обошла около 30 других моделей и установила рекорды. В реальных экспериментах на двурукой платформе робот складывал полотенца и разбирал блоки конструктора. Координировал руки и глаза стабильно, работал с жесткими и мягкими объектами одинаково хорошо. Представьте, как ваш домашний робот берет хрупкую чашку или мнет ткань — без ошибок, плавно.

Модульная Платформа

Платформа модульная. Поддерживает продвинутую навигацию с лидарами и камерами глубины, понимает жесты и голосовые команды. Она адаптируется к задачам и станет основой для будущих роботов Xiaomi — от бытовых до сервисных. Компания выходит в крупную робототехнику и планирует лидерство.

Использование Открытого Кода

Используйте открытый код для своих проектов. Скачайте, протестируйте на симуляторах или интегрируйте в роботов для дома или производства. Эта модель меняет правила: роботы теперь видят, понимают и действуют как единое целое. Ваш следующий робот сможет выполнять сложные цепочки задач без подсказок. Xiaomi Robotics 0 — шаг к настоящему физическому интеллекту.

Для тех, кто заинтересован в автоматизации для бизнеса, готовые сценарии по автоматизации для n8n помогут внедрить подобные технологии в ваш бизнес.

Полезные ссылки

Наши соц. сети

0 0 голоса
Рейтинг статьи

Вам так же может понравиться

Об авторе: Admin

Подписаться
Уведомить о

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии