A Inteligência Incorporada (Embodied AI) está a atravessar uma mudança decisiva. Recentemente, o robô chinês da empresa Zhiren lançou o Genie Envisioner World Simulator 2.0 (GE-Sim 2.0), tentando avançar o World Model (modelo do mundo) de ser uma ferramenta apenas para compreender o ambiente, para um simulador do mundo (World Simulator) em que se possa executar, treinar e otimizar diretamente robôs.

Se ainda não perceberes o quão crítico isto é, vale a pena começar por analisar as fragilidades da arquitetura LLM: do ponto de vista do treino, os LLM existentes apenas predizem o contexto com base em enormes conjuntos de dados textuais; conseguem saber que palavras como “maçã cai” tendem a aparecer juntas, mas não compreendem verdadeiramente as relações causais da gravidade ou do mundo físico.

É por isso que cientistas como Yang LeCun, Li Fei-Fei e outros se têm dedicado ao setor do World Model: quando a IA passa a ter capacidade de compreender ambientes 3D e de prever a física, esta tecnologia tornar-se-á o “cérebro digital” para robôs autónomos, condução autónoma e fabrico inteligente — ou seja, o “AI físico” (Physical AI). Assim, a linha do World Model defende que robôs serão o veículo absolutamente crucial. Hoje, a entrada do fabricante de robôs humanoides Unitree Robot simboliza o avanço pioneiro da China numa “inversão” vinda do hardware.

Anteriormente, o presidente da TSMC, Wei Zhejia, tinha afirmado: “Se olhares para a China continental a brincar com robôs, a saltar para cá e para lá, a dar saltos e pulos. Isso não serve para nada, é só bonito para ver.” Ele apontou que o essencial é fazer com que o “cérebro” do robô funcione; quem o faz são a Nvidia (Nvidia), a AMD (AMD) e uma série de empresas americanas, mas 95% dos cérebros são fabricados pela TSMC. O gargalo de desenvolvimento do GE-Sim 2.0 ainda está em aberto, fortemente associado ao desenvolvimento de modelos na China.

A linha do World Model defende que robôs são fundamentais

Os LLMs dominantes atualmente dependem de enormes conjuntos de dados e de relações estatísticas para compreender o contexto e prever a próxima palavra. Podem saber que as palavras “maçã cai” costumam aparecer juntas, mas não compreendem verdadeiramente as relações causais da gravidade ou do mundo físico.

Este tipo de padrão tem um desempenho excelente em geração de texto, assistência à programação ou tarefas de perguntas e respostas, mas ainda existem limitações fundamentais em cenários que exigem compreender a estrutura do mundo real, raciocinar relações causais e fazer planeamento de longo prazo. O problema ainda maior é que as fontes de dados estão gradualmente a esgotar-se. O treino dos LLMs depende fortemente de dados humanos de alta qualidade, e nos últimos anos a indústria tem começado a alertar que os dados textuais humanos utilizáveis poderão esgotar-se nos próximos anos. Tal como em reprodução entre parentes próximos que pode herdar defeitos, acabando por fazer o modelo se desviar gradualmente da realidade e ocorrer uma degradação do desempenho.

(Análise aprofundada: há falhas nos LLM? Por que Yang LeCun aposta na rota do World Model com a AMI)

É também por isso que, nos últimos anos, duas figuras de peso na comunidade de IA — Yang LeCun e Fei-Fei Li, conhecida como “a madrinha da IA” — escolheram apostar na nova geração de arquitetura de IA conhecida como World Model (modelo do mundo).

Na altura, o autor deste artigo referiu: “Vendo mais além, quando a IA tiver capacidade de compreender ambientes 3D e prever a física, esta tecnologia será o cérebro digital para robôs autónomos, condução autónoma e fabrico inteligente, ou seja, o ‘AI físico’ (Physical AI). Por conseguinte, a rota do World Model defende que robôs serão o veículo extremamente crucial. Hoje, quando fabricantes de robôs humanoides entram em cena — com a Zhiren Robot — isso simboliza o pioneirismo da China na inversão pelo hardware.”

Anteriormente, o presidente da TSMC, Wei Zhejia, ao falar sobre o desenvolvimento de robôs e semicondutores, foi direto: “Se olhares para a China continental a andar sempre a fazer robôs a saltar para cá e para lá, a dar pulos e a fazer coisas. Isso não serve, é só para parecer bonito.” Ele indicou que a chave é permitir que o “cérebro” do robô funcione; quanto a quem o faz, são a Nvidia (Nvidia), a AMD (AMD) e uma série de empresas americanas — mas 95% dos cérebros são fabricados pela TSMC.

(Wei Zhejia da TSMC ironiza: robôs chineses a saltar e a pular — é só bonito, não serve para nada! A chave continua a vir da Nvidia)

Evolução do World Model: de compreender o mundo a aprender dentro do mundo

Nos últimos anos, o World Model tem sido visto como uma tecnologia-chave para a IA compreender a realidade. Através de imagens, linguagem e dados de sensores, o modelo consegue prever mudanças no ambiente, dotando os robôs de capacidades básicas de tomada de decisão.

Mas a principal inovação do GE-Sim 2.0 está em não ser apenas compreender o mundo; é fazer com que sistemas de aprendizagem e ação se incorporem diretamente no “mundo gerado pelo modelo”. A ação (Action) é integrada como uma variável central, passando da previsão do estado tradicional para um ciclo completo:

State

Action

State Evolution

Isto significa que o robô deixa de ser apenas um observador e respondente, passando a poder fazer tentativas ativas no ambiente simulado, otimizar de forma autónoma e aprender continuamente. Esta mudança faz com que o World Model evolua de “modelo de cognição” para “infraestrutura de treino”.

GE-Sim 2.0: fazer os robôs “evoluir” em mundos virtuais

O GE-Sim 2.0 é definido como um conjunto de “simuladores de mundo incorporado”, tendo como objetivo central resolver três grandes gargalos do treino na realidade: custos demasiado altos, falta de dados e dificuldade em escalar. Ao gerar ambientes com modelos, o sistema pode treinar robôs em grande escala sem depender do mundo real.

Em termos técnicos, o GE-Sim 2.0 integra três capacidades-chave. Em primeiro lugar, “geração de imagens orientada por ações”: o modelo consegue gerar os futuros quadros correspondentes com base nas ações do robô, mantendo consistência entre múltiplas perspetivas, incluindo a perspetiva da cabeça e as perspetivas da operação com a mão esquerda e a mão direita.

Em segundo lugar, a modelação de proprioceção (proprioception): não só simula imagens externas, como também consegue prever as juntas e estados de movimento do próprio robô, tornando a decisão mais próxima do mundo físico real.

Em terceiro lugar, “avaliação automática de tarefas”: através de um reward model (modelo de recompensa) embutido, o sistema consegue determinar automaticamente se a tarefa foi concluída — por exemplo, “colocar o objeto azul dentro da caixa vermelha” — e fornecer feedback, que é diretamente usado para reforço de aprendizagem. Isto permite que o robô complete um ciclo fechado no ambiente simulado:

O GE-Sim 2.0 já consegue gerar vídeo de forma estável em “nível de minutos”

Em comparação com modelos anteriores que apenas conseguiam gerar segmentos de curta duração, o GE-Sim 2.0 já consegue gerar vídeos estáveis em “nível de minutos”, suportando simulações de tarefas durante longos períodos. Ao mesmo tempo, através de treino com dados reais em grande escala (dados de operação remota, deployment e interação), o modelo adquire uma capacidade de generalização mais forte entre diferentes cenários e tarefas. Isto é especialmente crucial para robôs humanoides: porque a operação no mundo real é altamente variável e não é possível confiar apenas em treino com cenários fixos.

O aparecimento do World Simulator significa que os robôs podem “treinar sem limites” no mundo virtual; isso trará duas mudanças estruturais: primeiro, os custos de treino diminuem drasticamente. Segundo, a velocidade da iteração de capacidades aumenta a um ritmo exponencial.

Zhiren Robot: nova força no setor de robôs humanoides da China

A Zhiren Robot foi fundada em 2023 por Peng Zhihui, o “talento jovem” da Huawei, e foca-se na área de inteligência incorporada que combina IA e robótica.

Os principais produtos da empresa incluem:

robôs humanoides da série “Yuan Zheng”

sistema de robôs “Ling Xi”

grande modelo geral GO-1

Neste momento, já concluiu várias rondas de financiamento e recebeu investimento de instituições como Sequoia China e Hillhouse Capital, sendo considerada uma das participantes importantes no setor de robôs humanoides na China, num quadro concorrencial com a Unitree Technology.

Este artigo Zhiren GE-Sim 2.0: usar o World Model para gerar mundos, o adversário da Unitree empurra robôs humanoides para a autoevolução apareceu pela primeira vez em Lianxin ABMedia.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Cofundador da Ethereum Lubin: a IA será um ponto de virada crítico para o cripto, mas o monopólio de gigantes de tecnologia traz risco sistêmico

ethereum news Agente de IA Notícias do setor de IA

O cofundador da Ethereum, Joseph Lubin, destacou o potencial transformador da IA para o setor de criptomoedas, ao mesmo tempo em que alertou sobre os riscos de centralização entre gigantes da tecnologia. Ele prevê transações autônomas impulsionadas por IA na blockchain e destaca a convergência entre as finanças tradicionais e a DeFi.

GateNews48m atrás

Elon Musk Defende Cheques de “Renda Universal Alta” como Solução Definitiva para o Desemprego na IA

Notícias do setor de IA

Elon Musk defende uma Renda Universal de Alta Renda para combater o desemprego causado pela IA, vislumbrando um futuro com muitos bens e inflação zero. Em contraste, especialistas como Sam Altman levantam preocupações sobre perda de empregos e propõem medidas de proteção para os trabalhadores.

Coinpedia57m atrás

DeepSeek Supostamente Lança Primeira Rodada de Captação Externa, Mirando Avaliação de US$ 10B+ e US$ 300M+

Notícias do setor de IA

DeepSeek, uma startup chinesa de IA, está negociando sua primeira rodada de financiamento externo, com o objetivo de levantar pelo menos $300 milhões em uma avaliação de $10 bilhões. Apesar de rejeições anteriores a ofertas de investimento, as discussões de captação agora supostamente estão em andamento.

GateNews1h atrás

Publicidade do ChatGPT avança para Austrália e Nova Zelândia: Free e usuários do Go primeiro, planos pagos mantêm sem anúncios

Notícias do setor de IA

A OpenAI, em 17 de abril de 2023, expandiu os anúncios do ChatGPT para a Austrália, Nova Zelândia e Canadá, para usuários do Free e do Go, enquanto os usuários pagantes não veem anúncios. Essa iniciativa marca o segundo caminho para a comercialização da IA e, ao considerar riscos comerciais e regulatórios, a exibição de anúncios pode promover conversões pagas.

ChainNewsAbmedia3h atrás

Hyundai Motor Group se reorganiza em torno de IA e robótica, mirando 30.000 robôs Atlas até 2030

Notícias do setor de IA

O Hyundai Motor Group está se reorganizando para focar em IA e robótica, reduzindo operações tradicionais. A empresa planeja um investimento de US$ 34,3 bilhões em robótica até 2030 e pretende lançar um modelo de robótica como serviço, colaborando com a Google DeepMind e a NVIDIA.

GateNews6h atrás

A NEA explora o uso de inteligência artificial na regulamentação nuclear

Notícias do setor de IA

O Grupo de Trabalho da NEA sobre Novas Tecnologias realizou um workshop nos dias 25–26 de março, com foco em como a inteligência artificial pode ser aplicada à supervisão regulatória e às operações internas dentro de autoridades nucleares. Resumo O workshop da NEA explorou aplicações reais de IA na regulamentação nuclear, com

Cryptonews9h atrás

Comentário

0/400

Sem comentários