O sistema de memórias de IA MemPalace, que afirma ter sido desenvolvido com a participação da actriz Milla Jovovich, prometeu testes com nota máxima e tornou-se rapidamente viral, mas foi alvo de críticas por parte da comunidade, que acusam o teste de alegada batota e de indução em erro dos dados. Testes em condições reais revelaram que os resultados foram exagerados e que há muitos erros; a equipa já reconheceu as falhas e está a trabalhar na respetiva correção.
Ontem (4/7), houve uma grande notícia no mundo da IA: a actriz de Hollywood Milla Jovovich (conhecida por Resident Evil e O Quinto Elemento), em conjunto com o programador Ben Sigman, utilizou Claude Code para ajudar no desenvolvimento do sistema aberto de memória de IA “MemPalace”.
Por um breve momento, espalhou-se amplamente a ideia de “uma superestrela de Hollywood a fazer um projeto perfeito com nota máxima”; até hoje, o MemPalace também já ultrapassou mais de 20k estrelas no GitHub, mas muito rapidamente suscitou dúvidas entre a comunidade de desenvolvimento: há mesmo substância ou é apenas hype?
Antes de mais, vejamos qual foi a motivação por detrás do surgimento do MemPalace. A documentação oficial afirma que o objetivo é resolver a limitação de que, atualmente, os utilizadores dos sistemas de IA e o conteúdo das conversas com a IA, bem como os processos de decisão e as discussões sobre a arquitetura, normalmente desaparecem depois do fim das sessões de trabalho, fazendo com que meses de esforço se percam, cair para zero.
Para resolver este problema, o MemPalace utiliza uma arquitetura espacial para armazenar as memórias, classificando claramente a informação em asas que representam pessoas ou projetos, bem como em estruturas de diferentes níveis, como corredores, salas e gavetas, preservando o texto original das conversas para pesquisa semântica posterior.
A equipa de desenvolvimento afirma que o MemPalace obteve 100% no critério de avaliação de memória de longo prazo LongMemEval, e que alcançou 96,6% de precisão sem chamar quaisquer APIs externas, além de conseguir ser executado totalmente no dispositivo local, sem necessidade de subscrição de serviços cloud, e com um sistema de dialeto AAAK que se afirma atingir uma compressão sem perdas 30x.
Fonte da imagem: GitHub A estrela do cinema americano Milla Jovovich cria um palácio de memórias de IA, gerando atenção no exterior
No entanto, a alegada pontuação máxima do MemPalace no LongMemEval chamou rapidamente a atenção e gerou suspeitas por parte de colegas do setor.
A PenfieldLabs, que também desenvolve sistemas de memórias de IA, apontou que a afirmação de que o MemPalace obteve nota máxima no conjunto de dados LoCoMo é matematicamente impossível, porque as respostas padrão desse conjunto de dados já incluem 99 erros.
A PenfieldLabs analisou e concluiu que a pontuação de 100% do MemPalace resulta do facto de o número de recuperações ter sido definido para 50 vezes, mas o conjunto de dados de teste tem apenas 32 níveis máximos de etapas de diálogo; isto significa que o sistema contorna diretamente a fase de recuperação e entrega todos os dados ao modelo de IA para leitura.
Quanto ao resultado de 100% do LongMemEval, foi descoberto que a equipa de desenvolvimento estava a lidar com 3 problemas específicos de três que se concentram em erros na fase de desenvolvimento, tendo escrito código de correção dedicado, o que levanta suspeitas de batota no conjunto de teste.
Fonte da imagem: Reddit A PenfieldLabs, da comunidade de colegas, aponta que a alegação do MemPalace de obter nota máxima no conjunto de dados LoCoMo é matematicamente impossível
O utilizador do GitHub hugooconnor comentou após testar em condições reais: quando o MemPalace afirma ter até 96,6% de precisão de recuperação, na prática não usa de todo a arquitetura do palácio de memórias promovida pelo MemPalace. hugooconnor afirma que os testes deles apenas chamaram a funcionalidade predefinida da base de dados subjacente ChromaDB, sem qualquer lógica de classificação envolvendo asas, salas ou gavetas enfatizadas no projeto.
Após testar, o hugooconnor descobriu que, quando o sistema realmente ativa a lógica de classificação exclusiva destes “palácios de memórias”, o desempenho de recuperação piora. Por exemplo, no modo de salas, a precisão desce para 89,4%; e depois de ativar a tecnologia de compressão AAAK, a precisão cai ainda mais para 84,2%, ambas inferiores ao desempenho do repositório de base de dados predefinido.
hugooconnor também criticou a metodologia de teste: no ambiente de testes do MemPalace, o intervalo de recuperação de cada problema é deliberadamente reduzido para cerca de 50 etapas de diálogo; procurar respostas em bases de amostras tão pequenas torna o processo demasiado simples.
Se o intervalo for alargado para mais de 19.000 etapas de diálogo em cenários reais, a precisão da pesquisa tradicional por palavras-chave desce drasticamente para 30%, mostrando que o modo de teste atual do MemPalace está a ocultar o verdadeiro desafio da pesquisa.
Fonte da imagem: GitHub Utilizador do GitHub testa na prática; há uma componente de indução em erro na avaliação de referência do MemPalace
Ao mesmo tempo, embora a equipa de desenvolvimento já tenha publicado uma declaração de correção, reconhecendo que a tecnologia AAAK foi de facto validada como compressão com perdas e prometendo corrigir a documentação e o desenho do sistema de acordo com críticas rigorosas da comunidade, o documento principal de descrição do projeto continua a manter várias afirmações exageradas não corrigidas. Incluem-se alegações de compressão sem perdas 30x e melhoria de 34% na recuperação, e as tabelas comparativas com outros concorrentes também não apresentam totalmente quaisquer fontes.
Com o número crescente de programadores a descarregar para testar, há agora muitos relatórios de bugs sobre o código-fonte do MemPalace na plataforma GitHub.
O utilizador cktang88 enumerou várias falhas graves, incluindo que o comando de compressão não consegue funcionar e faz com que o sistema falhe/colapse, erros na lógica de contagem de palavras do resumo, e que os dados estatísticos da “escavação” de salas não são precisos; além disso, o servidor carrega toda a informação interpretativa na memória sempre que é feita uma chamada, causando sérios problemas de consumo de recursos.
Outros problemas apontados incluem o facto de o sistema escrever à força os nomes dos familiares do programador no ficheiro de configuração predefinido e de existir um limite máximo forçado de exibição de 10k registos ao consultar o estado.
Para estes problemas, a comunidade open source já começou a corrigir ativamente. O utilizador adv3nt3 submeteu várias* solicitações de correção***, incluindo a correção dos dados estatísticos da escavação, a remoção dos nomes de familiares predefinidos e o adiamento do tempo de inicialização do gráfico de conhecimento.** A equipa de desenvolvimento também reconheceu posteriormente estes erros e está a resolver gradualmente os problemas de código através da colaboração da comunidade.
Relativamente a este projeto MemPalace, um utilizador do Hacker News chamado darkhanakh chegou a uma conclusão: o MemPalace dá a sensação de OpenClaw, ou seja, manipular artificialmente os resultados do teste de benchmark para parecer imaculadamente perfeito e, em seguida, embalá-lo como uma espécie de grande avanço para fazer marketing.
Ele considera que, embora a tecnologia de base do MemPalace possa mesmo ser interessante, perante este tipo de falhas nos métodos de teste, e ainda assim apostar na divulgação de “o maior resultado público de sempre”, não é muito apropriado. “Mas, quanto a a Milla Jovovich estar a brincar com Vibe Coding, eu acho que ainda assim é bastante fixe.”
Leitura adicional:
IA a escrever código corre mal! App “A Teia do Fim” de produto com validade em loja gera problemas de segurança em casa com GPS inteiro nu a correr
Related Articles
A Echobit Exchange estabelece parceria com a AIW3.AI para impulsionar o trading de criptomoedas com inteligência agentica
A tabela de lançamento do Qianwen para a funcionalidade do agente, suportando a geração e a edição de ficheiros Excel via conversa
O Google AI Studio lança Tab Tab Tab: o motor de preenchimento automático de prompts do Vibe Coding
Fundador da Gate, Dr. Han: a IA e a ecologia e a alocação de múltiplos ativos para reconfigurar os limites das capacidades da plataforma
O CLAUDE.md inspirado em Karpathy ultrapassa as 15K estrelas: como um ficheiro Markdown pode domar os maus hábitos da IA ao escrever código
O CEO da Starbucks revela “Assistente de Barista com IA”: apoio em tempo real na preparação de bebidas, resolvendo a desordem nas encomendas dos canais