Vision Banana do Google: Um modelo de visão unificado supera modelos específicos de tarefa em segmentação e geometria 3D

Mensagem do Gate News, 23 de abril — Pesquisadores do Google, incluindo He Kaiming e Xie Saining, publicaram um artigo que apresenta o Vision Banana, um modelo geral de compreensão visual criado por meio de ajuste fino leve de instruções do modelo de geração de imagem Nano Banana Pro (Gemini 3 Pro ). A principal inovação unifica as saídas de todas as tarefas visuais como imagens RGB, permitindo segmentação, estimativa de profundidade e predição de normais de superfície por meio de geração de imagens, sem arquiteturas ou funções de perda específicas da tarefa.

Na segmentação semântica, o Vision Banana superou o modelo especializado SAM 3 em 4,7 pontos percentuais no Cityscapes; na segmentação por expressão de referência, ele superou o SAM 3 Agent. No entanto, ficou atrás do SAM 3 em segmentação de instâncias. Para tarefas 3D, a estimativa métrica de profundidade alcançou 0,929 de acurácia média em quatro conjuntos de dados padrão, superando os 0,918 do Depth Anything V3, usando apenas dados sintéticos sem informações reais de profundidade ou parâmetros de câmera durante a inferência. A estimativa de normais de superfície obteve resultados de ponta em três benchmarks internos.

O ajuste fino envolveu dados mínimos de tarefas de visão misturados ao treinamento original de geração de imagens, preservando as capacidades de geração do modelo — o desempenho correspondeu ao Nano Banana Pro original nos testes de qualidade de geração. O artigo propõe que o pré-treinamento de geração de imagens em visão é paralelo ao pré-treinamento de geração de texto em linguagem: os modelos aprendem as representações internas necessárias para a compreensão de imagens durante a geração, com o ajuste fino de instruções apenas liberando essa capacidade.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

DeepSeek disponibiliza código-fonte aberto do TileKernels, biblioteca de kernels de GPU para treinamento e inferência de modelos em larga escala

Mensagem do Gate News, 23 de abril — A DeepSeek disponibilizou o código-fonte aberto do TileKernels sob a licença MIT, uma biblioteca de kernels de GPU escrita em TileLang para treinamento e inferência de modelos de linguagem em larga escala. O TileLang é uma linguagem de domínio desenvolvida pela equipe tile-ai para expressar kernels de GPU de alto desempenho em

GateNews7m atrás

Samsung SDS Expande Parceria com Google Cloud para Atender Setores Regulados com Serviços de IA e Segurança

Mensagem do Gate News, 23 de abril — A Samsung SDS expandiu sua parceria com o Google Cloud para oferecer serviços de IA, computação em nuvem e segurança a setores regulados, incluindo governo e serviços financeiros. As empresas vão implantar o Google Distributed Cloud para clientes que exigem localização de dados

GateNews31m atrás

Sullivan & Cromwell Pede Desculpas por Alucinações de IA em Petição Judicial com 40 Citações Errôneas

Mensagem do Gate News, 23 de abril — Sullivan & Cromwell, um grande escritório de advocacia de Wall Street, pediu desculpas a um juiz federal depois de apresentar uma petição judicial contendo aproximadamente 40 citações incorretas e outros erros causados por alucinações de IA. Andrew Dietderich, co-chefe da equipe global de reestruturação do escritório,

GateNews46m atrás

Tencent Lança e Disponibiliza em Código Aberto Prévia do Hunyuan Hy3 com 295B de Parâmetros

Mensagem do Gate News, 23 de abril — A Tencent revelou e disponibilizou em código aberto a prévia do Hunyuan Hy3, um modelo híbrido de linguagem mixture-of-experts (mistura de especialistas) com fusão de pensamento rápido e lento. O modelo possui 295 bilhões de parâmetros no total e 21 bilhões de parâmetros ativos, com suporte a um comprimento máximo de contexto de 256K

GateNews1h atrás

Coreia do Sul e Vietnã firmam 70+ MOUs em IA, Energia e Infraestrutura de Dados

Mensagem do Gate News, 23 de abril — A Coreia do Sul e o Vietnã assinaram mais de 70 memorandos de entendimento (MOUs) durante a visita oficial do presidente Lee Jae Myung a Hanói em 23 de abril, cobrindo IA, energia, infraestrutura e telecomunicações. Um fórum empresarial, com a participação de mais de 500 executivos, discutiu ecossistemas de IA e da indústria de energia, com grandes conglomerados coreanos, incluindo Samsung, SK, LG e Hyundai, representados.

GateNews1h atrás

Engenho de respostas por IA é alvo de poluição coletiva: 56% das respostas corretas no Gemini 3 não têm suporte de fonte

Este texto aponta que, ao consultar um mecanismo de respostas por IA, ele cita páginas da web em tempo real; se a fonte for gerada por IA ou faltar evidências, isso polui os resultados. Não é necessário mais treinar para que funcione, sendo isso chamado de contaminação por recuperação (retrieval contamination). Embora o Gemini3 tenha alta taxa de acerto, 56% das respostas não têm fontes verificáveis; casos como Lily Ray, Grokipedia etc. mostram que a IA é facilmente enganada por conteúdo inventado. A conclusão é que a camada de citação se desconecta de autores confiáveis, formando um ciclo de poluição autorreforçado; ainda assim, os usuários precisam voltar à fonte original e não devem tratar a resposta como o ponto final da verificação de fatos.

ChainNewsAbmedia1h atrás
Comentário
0/400
Sem comentários