Milla Jovovich Vicki usa IA para criar um «projecto com nota máxima»? Teste de programador: é mesmo bom ou é exagero e publicidade?

O sistema de memórias de IA MemPalace, que afirma ter sido desenvolvido com a participação da actriz Milla Jovovich, prometeu testes com nota máxima e tornou-se rapidamente viral, mas foi alvo de críticas por parte da comunidade, que acusam o teste de alegada batota e de indução em erro dos dados. Testes em condições reais revelaram que os resultados foram exagerados e que há muitos erros; a equipa já reconheceu as falhas e está a trabalhar na respetiva correção.

Milla Jovovich cria um “palácio de memórias” de IA e gera atenção no exterior

Ontem (4/7), houve uma grande notícia no mundo da IA: a actriz de Hollywood Milla Jovovich (conhecida por Resident Evil e O Quinto Elemento), em conjunto com o programador Ben Sigman, utilizou Claude Code para ajudar no desenvolvimento do sistema aberto de memória de IA “MemPalace”.

Por um breve momento, espalhou-se amplamente a ideia de “uma superestrela de Hollywood a fazer um projeto perfeito com nota máxima”; até hoje, o MemPalace também já ultrapassou mais de 20k estrelas no GitHub, mas muito rapidamente suscitou dúvidas entre a comunidade de desenvolvimento: há mesmo substância ou é apenas hype?

Antes de mais, vejamos qual foi a motivação por detrás do surgimento do MemPalace. A documentação oficial afirma que o objetivo é resolver a limitação de que, atualmente, os utilizadores dos sistemas de IA e o conteúdo das conversas com a IA, bem como os processos de decisão e as discussões sobre a arquitetura, normalmente desaparecem depois do fim das sessões de trabalho, fazendo com que meses de esforço se percam, cair para zero.

Para resolver este problema, o MemPalace utiliza uma arquitetura espacial para armazenar as memórias, classificando claramente a informação em asas que representam pessoas ou projetos, bem como em estruturas de diferentes níveis, como corredores, salas e gavetas, preservando o texto original das conversas para pesquisa semântica posterior.

A equipa de desenvolvimento afirma que o MemPalace obteve 100% no critério de avaliação de memória de longo prazo LongMemEval, e que alcançou 96,6% de precisão sem chamar quaisquer APIs externas, além de conseguir ser executado totalmente no dispositivo local, sem necessidade de subscrição de serviços cloud, e com um sistema de dialeto AAAK que se afirma atingir uma compressão sem perdas 30x.

Fonte da imagem: GitHub A estrela do cinema americano Milla Jovovich cria um palácio de memórias de IA, gerando atenção no exterior

Colegas e a comunidade levantam dúvidas em conjunto; métodos de teste e falhas na promoção

No entanto, a alegada pontuação máxima do MemPalace no LongMemEval chamou rapidamente a atenção e gerou suspeitas por parte de colegas do setor.

A PenfieldLabs, que também desenvolve sistemas de memórias de IA, apontou que a afirmação de que o MemPalace obteve nota máxima no conjunto de dados LoCoMo é matematicamente impossível, porque as respostas padrão desse conjunto de dados já incluem 99 erros.

A PenfieldLabs analisou e concluiu que a pontuação de 100% do MemPalace resulta do facto de o número de recuperações ter sido definido para 50 vezes, mas o conjunto de dados de teste tem apenas 32 níveis máximos de etapas de diálogo; isto significa que o sistema contorna diretamente a fase de recuperação e entrega todos os dados ao modelo de IA para leitura.

Quanto ao resultado de 100% do LongMemEval, foi descoberto que a equipa de desenvolvimento estava a lidar com 3 problemas específicos de três que se concentram em erros na fase de desenvolvimento, tendo escrito código de correção dedicado, o que levanta suspeitas de batota no conjunto de teste.

Fonte da imagem: Reddit A PenfieldLabs, da comunidade de colegas, aponta que a alegação do MemPalace de obter nota máxima no conjunto de dados LoCoMo é matematicamente impossível

Utilizadores do GitHub testam na prática; há uma componente de indução em erro na avaliação de referência

O utilizador do GitHub hugooconnor comentou após testar em condições reais: quando o MemPalace afirma ter até 96,6% de precisão de recuperação, na prática não usa de todo a arquitetura do palácio de memórias promovida pelo MemPalace. hugooconnor afirma que os testes deles apenas chamaram a funcionalidade predefinida da base de dados subjacente ChromaDB, sem qualquer lógica de classificação envolvendo asas, salas ou gavetas enfatizadas no projeto.

Após testar, o hugooconnor descobriu que, quando o sistema realmente ativa a lógica de classificação exclusiva destes “palácios de memórias”, o desempenho de recuperação piora. Por exemplo, no modo de salas, a precisão desce para 89,4%; e depois de ativar a tecnologia de compressão AAAK, a precisão cai ainda mais para 84,2%, ambas inferiores ao desempenho do repositório de base de dados predefinido.

hugooconnor também criticou a metodologia de teste: no ambiente de testes do MemPalace, o intervalo de recuperação de cada problema é deliberadamente reduzido para cerca de 50 etapas de diálogo; procurar respostas em bases de amostras tão pequenas torna o processo demasiado simples.

Se o intervalo for alargado para mais de 19.000 etapas de diálogo em cenários reais, a precisão da pesquisa tradicional por palavras-chave desce drasticamente para 30%, mostrando que o modo de teste atual do MemPalace está a ocultar o verdadeiro desafio da pesquisa.

Fonte da imagem: GitHub Utilizador do GitHub testa na prática; há uma componente de indução em erro na avaliação de referência do MemPalace

Ao mesmo tempo, embora a equipa de desenvolvimento já tenha publicado uma declaração de correção, reconhecendo que a tecnologia AAAK foi de facto validada como compressão com perdas e prometendo corrigir a documentação e o desenho do sistema de acordo com críticas rigorosas da comunidade, o documento principal de descrição do projeto continua a manter várias afirmações exageradas não corrigidas. Incluem-se alegações de compressão sem perdas 30x e melhoria de 34% na recuperação, e as tabelas comparativas com outros concorrentes também não apresentam totalmente quaisquer fontes.

O código-fonte do MemPalace enfrenta vários bugs

Com o número crescente de programadores a descarregar para testar, há agora muitos relatórios de bugs sobre o código-fonte do MemPalace na plataforma GitHub.

O utilizador cktang88 enumerou várias falhas graves, incluindo que o comando de compressão não consegue funcionar e faz com que o sistema falhe/colapse, erros na lógica de contagem de palavras do resumo, e que os dados estatísticos da “escavação” de salas não são precisos; além disso, o servidor carrega toda a informação interpretativa na memória sempre que é feita uma chamada, causando sérios problemas de consumo de recursos.

Outros problemas apontados incluem o facto de o sistema escrever à força os nomes dos familiares do programador no ficheiro de configuração predefinido e de existir um limite máximo forçado de exibição de 10k registos ao consultar o estado.

Para estes problemas, a comunidade open source já começou a corrigir ativamente. O utilizador adv3nt3 submeteu várias* solicitações de correção***, incluindo a correção dos dados estatísticos da escavação, a remoção dos nomes de familiares predefinidos e o adiamento do tempo de inicialização do gráfico de conhecimento.** A equipa de desenvolvimento também reconheceu posteriormente estes erros e está a resolver gradualmente os problemas de código através da colaboração da comunidade.

Vibe Coding da Milla Jovovich é fixe; o método de marketing não é

Relativamente a este projeto MemPalace, um utilizador do Hacker News chamado darkhanakh chegou a uma conclusão: o MemPalace dá a sensação de OpenClaw, ou seja, manipular artificialmente os resultados do teste de benchmark para parecer imaculadamente perfeito e, em seguida, embalá-lo como uma espécie de grande avanço para fazer marketing.

Ele considera que, embora a tecnologia de base do MemPalace possa mesmo ser interessante, perante este tipo de falhas nos métodos de teste, e ainda assim apostar na divulgação de “o maior resultado público de sempre”, não é muito apropriado. “Mas, quanto a a Milla Jovovich estar a brincar com Vibe Coding, eu acho que ainda assim é bastante fixe.”

Leitura adicional:
IA a escrever código corre mal! App “A Teia do Fim” de produto com validade em loja gera problemas de segurança em casa com GPS inteiro nu a correr

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

A Echobit Exchange estabelece parceria com a AIW3.AI para impulsionar o trading de criptomoedas com inteligência agentica

No meio dos seus objectivos de avançar a eficiência da negociação para traders e investidores de cripto, a bolsa Echobit, uma bolsa de criptomoedas de próxima geração concebida para tornar a negociação simples, segura e acessível a todos em todo o mundo, celebrou hoje uma colaboração importante com a AIW3.AI, uma rede descentralizada

BlockChainReporter43m atrás

A tabela de lançamento do Qianwen para a funcionalidade do agente, suportando a geração e a edição de ficheiros Excel via conversa

Notícias do Gate, mensagem, 14 de abril, o assistente de IA Qianwen, da Alibaba, disponibiliza a funcionalidade "Agent de tabelas", permitindo que os utilizadores gerem e editem ficheiros Excel diretamente numa conversa. Esta funcionalidade permite que os utilizadores peçam ao Qianwen para pesquisar informações e gerar uma tabela, além de poder organizar o conteúdo de várias rondas de conversa numa tabela, ou gerar tabelas com base em imagens e ficheiros. O sistema normalmente consegue produzir ficheiros Excel descarregáveis em 1-2 minutos, sem necessidade de copiar e colar novamente, e suporta alterações através de linguagem natural.

GateNews9h atrás

O Google AI Studio lança Tab Tab Tab: o motor de preenchimento automático de prompts do Vibe Coding

O responsável pelas relações com programadores na Google AI, Logan Kilpatrick, anunciou o lançamento do motor de preenchimento automático de prompts «Tab Tab Tab», com o objetivo de melhorar a experiência de interação dos programadores na interface de Vibe Coding do AI Studio. Esta funcionalidade recomenda automaticamente instruções mais completas através do Gemini, permitindo que os programadores expressem ideias vagas de forma mais precisa, melhorem a qualidade das instruções, resolvam o gargalo de os humanos formularem instruções e reforcem a competitividade do Google AI Studio no seu conjunto de ferramentas.

ChainNewsAbmedia10h atrás

Fundador da Gate, Dr. Han: a IA e a ecologia e a alocação de múltiplos ativos para reconfigurar os limites das capacidades da plataforma

O fundador da Gate, o Dr. Han, apresentou o desenvolvimento da plataforma na carta pública de aniversário, incluindo o aprofundamento do ecossistema de IA e do sistema de negociação de múltiplos activos. A Gate está a construir um ecossistema de produtos de IA e a disponibilizar uma área dedicada a negociações TradFi, abrangendo vários tipos de activos para satisfazer as necessidades dos utilizadores. Além disso, lançou um mecanismo de participação em Pre-IPOs digitalizados, oferecendo aos utilizadores uma nova via para projetos de qualidade de ofertas públicas. No futuro, a Gate continuará a reforçar a infra-estrutura e a melhorar a experiência global de negociação de activos digitais dos utilizadores.

GateNews04-13 08:01

O CLAUDE.md inspirado em Karpathy ultrapassa as 15K estrelas: como um ficheiro Markdown pode domar os maus hábitos da IA ao escrever código

Um ficheiro Markdown chamado CLAUDE.md, com observações e princípios fornecidos por Andrej Karpathy, impulsionou o projeto Claude Code no GitHub para mais de 15.000 estrelas. Este documento estabelece regras de conduta para o LLM na programação, com foco em erros comuns, salienta a orientação por objectivos, a validação de requisitos e a exposição proactiva de compromissos e escolhas, reflectindo a importância dada pelos programadores à engenharia do comportamento da IA, podendo até ser mais eficaz do que escolher um modelo mais potente.

ChainNewsAbmedia04-13 03:53

O CEO da Starbucks revela “Assistente de Barista com IA”: apoio em tempo real na preparação de bebidas, resolvendo a desordem nas encomendas dos canais

O CEO da Starbucks, Brian Niccol, apresentou dois sistemas de IA na conferência Dreamforce: “Green Dot” e “Smart Q”. O primeiro funciona como assistente imediato para os colaboradores nas lojas, enquanto o segundo resolve problemas de confusão nos pedidos, melhorando a eficiência do serviço. No futuro, a aplicação da Starbucks poderá prever os pedidos dos clientes, permitindo uma preparação mais conveniente das bebidas. Esta série de implementações de IA tem como objetivo reforçar o papel da Starbucks como um espaço social para as pessoas.

動區BlockTempo04-12 17:14
Comentário
0/400
Sem comentários