A Mira Jojava Viki usa IA para criar um “projecto de pontuação máxima”? Teste de um programador: é mesmo de qualidade ou é pura exagero e promoção?

O sistema de memórias com IA “MemPalace”, desenvolvido por Milla Jovovich e Vicky (Vitki) , alegou ter obtido pontuação perfeita nos testes e tornou-se viral, mas foi rapidamente desmascarado pela comunidade, que levantou suspeitas de fraude nos testes e de dados potencialmente enganadores. Em testes reais, verificou-se que os resultados foram exagerados e que existem muitos erros; a equipa já admitiu falhas e está a trabalhar na sua correção.

Milla Jovovich criou o “AI Memory Palace”, gerando atenção no exterior

Ontem (4/7), houve uma grande notícia no meio da IA: a actriz de Hollywood, conhecida por “Resident Evil” e “O Quinto Elemento”, Milla Jovovich (Milla Jovovich), juntamente com o programador Ben Sigman, usou o Claude Code para desenvolver o sistema de código aberto de memórias com IA “MemPalace”.

A certa altura, espalhou-se amplamente a ideia de “uma estrela de Hollywood a fazer um projeto perfeito de nota máxima”, e o MemPalace já recebeu mais de 20 mil estrelas no GitHub; no entanto, muito rapidamente, a comunidade de programadores começou a questionar: será que é mesmo bom ou é só marketing?

Vamos primeiro ao motivo do nascimento do MemPalace. A documentação oficial afirma que a intenção é resolver uma limitação atual dos sistemas de IA: o conteúdo das conversas entre utilizadores e IA, os processos de decisão e as discussões de arquitetura normalmente desaparecem depois de terminar a sessão de trabalho, levando a que meses de esforço acabem por cair para zero.

Para resolver este problema, o MemPalace utiliza uma arquitetura espacial para armazenar memórias, classificando a informação de forma clara em áreas em forma de asas que representam pessoas ou projetos, bem como em estruturas a diferentes níveis, como corredores, salas e gavetas, mantendo o texto original das conversas para pesquisa semântica posterior.

A equipa de desenvolvimento afirma que o MemPalace obteve 100% no referencial de avaliação de memória de longa duração LongMemEval, e alcançou 96,6% de precisão sem chamar nenhuma API externa; além disso, pode funcionar completamente no local, sem necessidade de subscrever serviços na nuvem, e inclui um alegado sistema de dialeto AAAK capaz de atingir compressão sem perda 30 vezes.

Fonte da imagem: GitHub Estrela de cinema de Hollywood Milla Jovovich criou o “AI Memory Palace”, gerando atenção no exterior

Concorrentes e comunidade levantam dúvidas em conjunto; método de teste e falhas na promoção

No entanto, a alegada pontuação perfeita do MemPalace no LongMemEval trouxe rapidamente desconfiança por parte dos concorrentes.

A PenfieldLabs, que também produz sistemas de memória com IA, apontou que a alegação do MemPalace de obter pontuação máxima no conjunto de dados LoCoMo é matematicamente impossível, porque as respostas padrão do próprio conjunto de dados já incluem 99 erros.

Ao analisar, a PenfieldLabs descobriu que o desempenho de 100% do MemPalace resulta de definir o número de recuperações para 50, mas o número mais alto de etapas de diálogo nos dados de teste é apenas 32; isto significa que o sistema contorna diretamente a fase de recuperação, entregando todos os dados ao modelo de IA para leitura.

Quanto ao desempenho de 100% no LongMemEval, foi descoberto que a equipa de desenvolvimento focou-se em 3 problemas específicos que surgiram ao nível do desenvolvimento e escreveu código de correção dedicado, existindo suspeitas de fraude direcionada ao conjunto de testes.

Fonte da imagem: Reddit Os concorrentes PenfieldLabs apontam que o MemPalace alega obter pontuação máxima no conjunto de dados LoCoMo, o que é matematicamente impossível

Teste prático por utilizadores do GitHub; componentes de desinformação no benchmark

O utilizador do GitHub hugooconnor comentou após testes reais: quando o MemPalace alega ter até 96,6% de precisão de recuperação, na prática não utiliza de todo a arquitetura de “memórias-palácio” que a plataforma promove. hugooconnor afirma que os seus testes apenas chamaram a funcionalidade predefinida da base de dados subjacente ChromaDB, sem envolver qualquer lógica de classificação das “alas”, “salas” ou “gavetas” que o projeto enfatiza.

Após testar, o hugooconnor descobriu que quando o sistema realmente ativa a lógica de classificação exclusiva dessas “memórias-palácio”, o desempenho de recuperação piora. Por exemplo, no modo de salas, a precisão cai para 89,4%; e após ativar a tecnologia de compressão AAAK, a precisão desce ainda mais para 84,2%, ambos inferiores ao desempenho da base de dados predefinida.

hugooconnor também criticou o método de teste: o ambiente de teste do MemPalace reduz deliberadamente o intervalo de recuperação de cada questão para cerca de 50 etapas de diálogo, tornando demasiado simples encontrar respostas num conjunto de amostras extremamente pequeno.

Se expandir o intervalo para mais de 19.000 etapas de diálogo em cenários reais, a precisão da pesquisa tradicional por palavras-chave desce para 30%, mostrando que o método de teste atual do MemPalace esconde o verdadeiro problema de pesquisa.

Fonte da imagem: GitHub Utilizadores do GitHub testam na prática; o benchmark do MemPalace tem componentes de desinformação

Ao mesmo tempo, embora a equipa de desenvolvimento tenha publicado uma declaração de retificação, reconhecendo que a tecnologia AAAK foi realmente validada como compressão com perdas, e se tenha comprometido a corrigir as explicações nos documentos e no desenho do sistema com base nas críticas severas da comunidade. Ainda assim, o documento principal de apresentação do projeto mantém várias afirmações exageradas não corrigidas, incluindo alegações de compressão sem perdas 30 vezes e aumento de recuperação de 34%, e também as tabelas e gráficos de comparação com outros concorrentes não apresentam completamente qualquer fonte.

O código-fonte do MemPalace enfrenta vários bugs

Com o aumento do número de programadores a descarregar os testes, apareceram no GitHub muitos relatórios de bugs sobre o código-fonte do MemPalace.

O utilizador cktang88 listou várias falhas graves, incluindo que o comando de compressão não consegue funcionar e causa a queda do sistema, erros na lógica de contagem do número de palavras do resumo, e estatísticas imprecisas ao “escavar” as salas, bem como o facto de o servidor carregar todas as interpretações dos dados para a memória sempre que é chamado, causando um problema sério de consumo de recursos.

Outros problemas apontados incluem também o sistema gravar à força os nomes de familiares dos programadores nos ficheiros de configuração predefinidos, e a existência de um limite máximo forçado de exibição de 10k registos ao verificar o estado.

Para estes problemas, a comunidade open source já começou a repará-los ativamente. O utilizador adv3nt3 enviou váriassolicitaçõesde correção, incluindo a correção dos dados estatísticos do “escavar”, a remoção dos nomes predefinidos de familiares e o adiamento do tempo de inicialização do gráfico de conhecimento. A equipa de desenvolvimento também reconheceu posteriormente estes erros, e está a resolver gradualmente os problemas de código com a colaboração da comunidade.

O “Vibe Coding” da Milla Jovovich é fixe; a forma de marketing não é fixe

Quanto ao projeto MemPalace, um utilizador do Hacker News, darkhanakh, chegou a esta conclusão: o MemPalace dá a sensação de “OpenClaw”, ou seja, manipula artificialmente os resultados do benchmark para parecer impecável, e depois embala tudo como se fosse algum grande avanço para vender o produto.

Ele acredita que a tecnologia subjacente do MemPalace pode de facto ser interessante, mas, com falhas desse tipo no método de teste, ainda assim fazer a promoção com “a pontuação pública mais alta de sempre” é, no mínimo, pouco adequado; “mas, no que toca a a Milla Jovovich estar a brincar a Vibe Coding, eu acho que ainda assim é bastante fixe.”

Leitura adicional:
A IA ao escrever código deu para o torto! A app “Caçador de Salvação” de produtos com validade de supermercado revelou problemas de segurança na informação; o GPS em casa ficou todo a céu aberto

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

As fotos íntimas do Justin Bieber são divulgadas! A influenciadora de IA conquista o festival de música Coachella, a autenticidade é difícil de distinguir, gerando preocupação

Recentemente, vários influenciadores virtuais de IA publicaram no festival Coachella fotografias íntimas com nomes conhecidos, como a estrela pop Justin Bieber, sem assinalar que se tratava de conteúdo de IA, o que suscitou preocupações sobre a insuficiência dos mecanismos de divulgação da plataforma. À medida que os interesses comerciais impulsionam a ascensão dos influenciadores de IA, o seu crescimento poderá levar a uma diminuição da confiança do público na autenticidade.

ChainNewsAbmedia43m atrás

Na região de Irkutsk, na Rússia, foram apreendidos mais de 8000 locais de mineração ilegal de criptomoedas

Na região de Irkutsk, na Rússia, foram descobertas mais de 8000 instalações ilegais de mineração de criptomoedas, com formas de disfarce variadas. Desde 2019, a empresa já intentou 2170 processos, exigindo uma indemnização de 1850 milhões de dólares. Para estabilizar a rede eléctrica, está previsto recorrer à IA para identificar os locais de mineração ilegais.

GateNews1h atrás

Será que o Claude Mythos ameaça a segurança financeira? O ministro das Finanças dos EUA e o presidente da Reserva Federal reúnem-se com urgência para alertar para os riscos

O ministro das Finanças dos EUA e o presidente da Reserva Federal convocaram os principais executivos de Wall Street, alertando que o modelo de IA Mythos pode representar um risco sistémico para o sistema financeiro. O Mythos consegue descobrir autonomamente grandes quantidades de vulnerabilidades; a Anthropic optou por limitar a sua disponibilização pública e iniciou o «Projeto Asa de Vidro» para reforçar a cibersegurança.

CryptoCity1h atrás

O Claude Mythos ameaça a segurança financeira? O Secretário do Tesouro dos EUA e o presidente da Reserva Federal reúnem-se de urgência para alertar para os riscos

O ministro das Finanças dos EUA e o presidente da Reserva Federal convocaram os principais executivos de Wall Street, alertando que o modelo de IA Mythos pode representar um risco sistémico para o sistema financeiro. O Mythos consegue descobrir autonomamente um grande número de vulnerabilidades; a Anthropic optou por limitar a sua divulgação pública e lançou o «Projeto Asas de Vidro» para reforçar a segurança na rede.

CryptoCity4h atrás

A Anthropic contrata a empresa de lobbying Ballard Partners, depois de uma negociação com o Pentágono ter falhado devido a restrições de utilização da IA

A Anthropic anunciou a 14 de abril uma parceria com a empresa de lobbying Ballard Partners, com o objetivo de melhorar as relações com o Pentágono. Antes disso, não foi possível chegar a um acordo devido a divergências quanto ao âmbito de utilização da IA: o Pentágono queria poder usar as suas ferramentas sem limitações, enquanto a Anthropic exigia restrições quanto ao seu uso em armas totalmente autónomas e em vigilância. Esta iniciativa marca um aumento significativo do investimento em comunicação de políticas na indústria de IA.

GateNews4h atrás

Memorando interno da OpenAI exposto: aponta o discurso de medo da Anthropic e “desempenho computacional inferior, faturação inflacionada”

A concorrência em Inteligência Artificial intensifica-se, e a OpenAI, num memorando interno, sublinha a necessidade de reforçar o mercado empresarial, aumentar a aderência dos utilizadores, e critica erros de estratégia e dados financeiros exagerados do concorrente Anthropic, apontando as suas desvantagens ao nível da capacidade de computação e da estratégia do produto. A OpenAI planeia desenvolver-se como uma plataforma de integração de múltiplos produtos, recorrendo à sua vantagem em capacidade de computação para alcançar a liderança de mercado.

ChainNewsAbmedia5h atrás
Comentário
0/400
Sem comentários