Zhiyuan GE-Sim 2.0: Используя World Model для создания мира, конкурент Yushu продвигает человекоподобных роботов к самосовершенствованию

Воплощённый интеллект (Embodied AI) сейчас переживает ключевой переломный момент. В последнее время китайская компания Zhirun Robotics выпустила Genie Envisioner World Simulator 2.0 (GE-Sim 2.0), пытаясь продвинуть World Model (модель мира) из инструмента, просто понимающего среду, в симулятор мира (World Simulator), который может напрямую запускать, обучать и оптимизировать роботов.

Если вы пока не понимаете, насколько это важно, сначала взгляните на фундаментальные недостатки архитектуры LLM: с точки зрения обучения существующие LLM просто предсказывают контекст по большим массивам данных; они могут знать, что эти слова «яблоко упало» часто встречаются вместе, но не понимают причинно-следственные связи гравитации или физического мира по-настоящему.

Именно поэтому такие учёные, как Ян Лекун и Ли Фэй-Лэй, вкладываются в направление World Model: когда у ИИ появятся способности понимать 3D-среду и делать физические прогнозы, эта технология станет цифровым «мозгом» для автономных роботов, беспилотного вождения и интеллектуального производства — так называемого «реального ИИ» (Physical AI). Поэтому в дорожной карте World Model утверждается, что робот будет крайне важным носителем. Сегодня в игру вошли производители гуманоидных роботов в масштабе «роста человека», в лице Zhirun Robotics, что символизирует авангард Китая в контратаке с упором на железо.

Ранее председатель совета директоров TSMC Вэй Чжэцзя говорил: если смотреть на материковый Китай, там постоянно «делают роботов, которые прыгают туда-сюда». Это не имеет смысла — просто красиво. Он указал, что ключ в том, чтобы мозг робота мог работать, и чей это мозг: Nvidia (Nvidia), AMD (AMD) и множество американских компаний, но 95% «мозга» производит TSMC. Боттлнек в развитии GE-Sim 2.0 всё ещё сохраняется и тесно связан с развитием моделей в Китае.

В дорожной карте World Model утверждается, что робот — ключ

Нынешние основные LLM опираются на огромные массивы данных и статистические взаимосвязи, чтобы понимать контекст, и предсказывать следующее слово. Она может знать, что слова «яблоко упало» часто встречаются вместе, но не понимает причинно-следственные связи гравитации или физического мира по-настоящему.

Такая схема отлично работает в задачах генерации текста, программной поддержки или вопрос-ответ, но в сценариях, где нужно понимать структуру реального мира, рассуждать о причинно-следственных связях и строить долгосрочные планы, остаются фундаментальные ограничения. Большее же проблема в том, что источники данных постепенно иссякают. Обучение LLM очень зависит от высококачественных человеческих данных, а в последние годы индустрия начала предупреждать, что доступные человеческие текстовые данные могут быть исчерпаны в ближайшие несколько лет. Тогда это будет как при близкородственном скрещивании: наследственные дефекты в конечном итоге приведут к тому, что модель всё больше отдалится от реальности и начнёт деградировать по производительности.

(Глубокий разбор: у LLM есть недостатки? Почему Ян Лекун делает ставку на AMI по направлению World Model)

Вот почему в последние годы два тяжеловеса в научном сообществе ИИ — Ян Лекун и Ли Фэй-Лэй (Fei-Fei Li), которую называют «крёстной матерью ИИ», — выбрали ставку на новое поколение AI-архитектуры, известной как World Model (модель мира).

Тогда автор писал: если посмотреть дальше, после того как у ИИ появятся способности понимать 3D-среду и делать физические предсказания, эта технология станет цифровым мозгом для автономных роботов, беспилотного вождения и интеллектуального производства — «реального ИИ» (Physical AI). Поэтому в дорожной карте World Model утверждается, что робот будет крайне важным носителем. Сегодня, когда производитель гуманоидных роботов Zhirun Robotics выходит на сцену, это символизирует авангард Китая в контратаке с упором на железо.

Ранее председатель TSMC Вэй Чжэцзя, говоря о развитии роботов и полупроводников, прямо заявил: если смотреть на материковый Китай, там роботы «прыгают туда-сюда, подпрыгивают». Это не нужно — просто «витрина». Он указал, что ключ в том, чтобы мозг робота мог работать, а мозг делает: Nvidia (Nvidia), AMD (AMD) и множество американских компаний, но 95% мозга производится TSMC.

(Вэй Чжэцзя (TSMC) язвит: китайские роботы прыгают туда-сюда — это просто «витрина», толку нет! Ключ всё равно в Nvidia)

Эволюция World Model: от понимания мира к обучению в мире

В последние несколько лет World Model постоянно рассматривали как ключевую технологию для ИИ, чтобы понимать реальность. За счёт изображений, языка и данных сенсоров модель может предсказывать изменения в среде, давая роботам базовые способности к принятию решений.

Но главной прорывной особенностью GE-Sim 2.0 является то, что это не просто понимание мира: система обучения и действий встроена прямо в «мир, сгенерированный моделью». Переменная для Action (действия) включается в основу, а переход происходит от традиционного прогнозирования состояния к полноценному циклу:

State

Action

State Evolution

Это означает, что робот больше не просто наблюдает и реагирует, а может активно пробовать в симуляционной среде, автономно оптимизировать и постоянно обучаться. Этот сдвиг переводит World Model от «когнитивной модели» к «инфраструктуре для обучения».

GE-Sim 2.0: «эволюция» роботов в виртуальном мире

GE-Sim 2.0 определяется как набор «симуляторов воплощённого мира». Основная цель — решить три ключевых узких места реального обучения: слишком высокая стоимость, недостаток данных и сложность масштабирования. За счёт генерации среды моделью система может массово обучать роботов без зависимости от реального мира.

Технически GE-Sim 2.0 интегрирует три ключевые способности. Во-первых, это «движение-ориентированная генерация видео»: модель может генерировать соответствующие будущие изображения в зависимости от действий робота, сохраняя согласованность по нескольким ракурсам, включая ракурс головы и ракурсы управления левыми и правыми руками.

Во-вторых, это моделирование проприоцепции (proprioception): она не только имитирует внешние видеокадры, но и может предсказывать собственные состояния суставов и действий робота, делая принятие решений ближе к реальному физическому миру.

В-третьих, это «автоматическая оценка задач»: с помощью встроенной reward model (модели вознаграждения) система может автоматически определять, выполнена ли задача. Например, «поместить синий объект в красный ящик», и выдавать обратную связь, которая напрямую используется для обучения с подкреплением. Это позволяет роботу завершать полный замкнутый цикл в симуляционной среде:

GE-Sim 2.0 уже умеет обеспечивать «минутную» стабильную генерацию видео

По сравнению с ранними моделями, которые могли генерировать лишь короткие фрагменты, GE-Sim 2.0 уже может обеспечивать «минутную» стабильную генерацию видео и поддерживать симуляцию задач на протяжении длительного времени. При этом за счёт обучения на масштабных реальных данных (данных дистанционного управления, развертывания и взаимодействия) модель демонстрирует более сильные возможности обобщения между разными сценами и задачами. Это особенно важно для гуманоидных роботов: потому что операции в реальном мире сильно различаются, и нельзя полагаться только на обучение в фиксированных сценах.

Появление World Simulator означает, что роботы могут «бесконечно тренироваться» в виртуальном мире. Это приведёт к двум структурным изменениям: первое — стоимость обучения существенно снизится. Второе — скорость итерации возможностей вырастет на порядки по экспоненте.

Zhirun Robotics: новая сила китайских гуманоидных роботов

Zhirun Robotics была основана в 2023 году Пэн Чжи-хуэй (одним из «гениев» Huawei), который учредил компанию. Она фокусируется на области воплощённого интеллекта, где объединяются AI и робототехника.

Ключевые продукты компании включают:

гуманоидных роботов серии «Юаньчжэн» (远征)

роботизированную систему «Линси» (灵犀)

универсальную крупномасштабную модель GO-1

На данный момент компания завершила несколько раундов финансирования и получила инвестиции от таких организаций, как Sequoia China и Hillhouse Capital, и рассматривается как важный игрок в сфере китайских гуманоидных роботов, образуя конкурентную конфигурацию вместе с компанией Unitree Robotics.

Эта статья Zhirun Robotics GE-Sim 2.0: с помощью World Model генерируют мир, соперник Unitree в лице стремительных гуманоидных роботов продвигает их к самосовершенствованию впервые появилась в Lianxin ABMedia.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Сооснователь Ethereum Любин: ИИ станет критически важным поворотным моментом для криптовалют, но монополия техгигантов несет системный риск

Сооснователь Ethereum Джозеф Любин подчеркнул преобразующий потенциал ИИ для криптовалютного сектора, одновременно предостерегая от рисков централизации среди технологических гигантов. Он представляет ИИ-управляемые автономные транзакции в блокчейне и отмечает сближение традиционных финансов с DeFi.

GateNews17м назад

Илон Маск продвигает чеки «универсального высокого дохода» как единственное решение проблемы безработицы в ИИ

Илон Маск выступает за Универсальный высокий доход, чтобы противодействовать безработице, вызванной ИИ, представляя будущее, в котором будет в достатке товаров и нулевая инфляция. В отличие от этого, такие эксперты, как Сэм Альтман, выражают обеспокоенность потерей рабочих мест и предлагают защитные меры для работников.

Coinpedia26м назад

Сообщается, что DeepSeek запустила первый раунд внешнего сбора средств, нацелившись на оценку $10B+ и $300M+

DeepSeek, китайская AI-компания, ведет переговоры о первом раунде внешнего финансирования, стремясь привлечь как минимум $300 млн при оценке $10 млрд. Несмотря на прежние отказы от инвестиционных предложений, сейчас, как сообщается, ее обсуждения по сбору средств уже идут.

GateNews47м назад

Реклама ChatGPT выходит на рынки Австралии и Новой Зеландии: для пользователей Free и Go сначала, платные тарифы сохраняют отсутствие рекламы

OpenAI 17 апреля 2023 года расширила рекламу ChatGPT до Австралии, Новой Зеландии и Канады, нацелившись на пользователей Free и Go; для платных пользователей рекламы нет. Это знаменует вторую траекторию коммерциализации ИИ и учитывает коммерческие и регуляторные риски: появление рекламы может способствовать конвертации в платную подписку.

ChainNewsAbmedia2ч назад

Hyundai Motor Group реорганизует деятельность вокруг ИИ и робототехники, нацеливаясь на 30 000 роботов Atlas к 2030 году

Группа Hyundai Motor Group проводит реструктуризацию, чтобы сосредоточиться на ИИ и робототехнике, сокращая традиционные направления. Она планирует инвестировать $34,3 млрд в робототехнику к 2030 году и намерена запустить модель робототехники как услуги, сотрудничая с Google DeepMind и NVIDIA.

GateNews5ч назад

NEA изучает применение искусственного интеллекта в ядерном регулировании

Рабочая группа NEA по новым технологиям провела семинар 25—26 марта, посвященный тому, как искусственный интеллект может применяться для регуляторного надзора и внутренних операций в рамках ядерных органов власти. Резюме Семинар NEA изучал реальные приложения ИИ в ядерном регулировании, с

Cryptonews8ч назад
комментарий
0/400
Нет комментариев