A Meta lançou recentemente sua série de modelos de IA LLAMA 4, ganhando manchetes para ultrapassar o GPT-4O e o Gemini 2.0 Pro na Chatbot Arena (anteriormente LMSYs). A empresa afirmou que seu modelo de lhama 4 Maverick – um modelo MOE que ativa apenas 17 bilhões de parâmetros de 400B em 128 especialistas – alcançou uma impressionante pontuação ELO de 1.417 no benchmark da Chatbot Arena.
Esse resultado levantou as sobrancelhas na comunidade de IA, à medida que um modelo MOE relativamente menor superou LLMs muito maiores, como GPT-4.5 e GROK 3. O desempenho incomum de um modelo pequeno levou muitos na comunidade de IA a testar o modelo de forma independente. Surpreendentemente, a performance do mundo real de Llama 4 Maverick não correspondeu às reivindicações de benchmark da Meta, particularmente em tarefas de codificação.
Sobre 1Point3ACRESUm fórum popular para o povo chinês na América do Norte, um usuário que afirma ser um ex -meta funcionário postou uma bomba. De acordo com o post, que foi traduzido para o inglês em Reddita meta liderança supostamente misturou “os conjuntos de testes de vários benchmarks no processo pós-treinamento” para inflar a pontuação de referência e atingir metas internas.
O funcionário da Meta achou a prática inaceitável e optou por renunciar. O ex -funcionário também pediu à equipe para excluir seu nome do relatório técnico da LLAMA 4. De fato, o usuário afirma que a recente renúncia do chefe de pesquisa da Meta da AI, Joelle Pineau, está diretamente ligada ao hacking da LLAMA 4 Benchmark.
Em resposta às crescentes alegações, Ahmad al-Dahle, chefe da divisão de IA generativa de Meta, compartilhou um Postagem em x. Ele descartou firmemente a alegação de que o LLAMA 4 foi pós-treinado nos conjuntos de testes. Al-Dahle escreve:
Também ouvimos alegações de que treinamos em conjuntos de testes – isso simplesmente não é verdadeiro e nunca faríamos isso. Nosso melhor entendimento é que a qualidade variável que as pessoas estão vendo se deve à necessidade de estabilizar as implementações.
Ele reconheceu o desempenho inconsistente do LLAMA 4 em diferentes plataformas. E, também instou a comunidade de IA a dar alguns dias para que a implementação seja “discada”.
LMSYS responde às alegações de manipulação de referência da LLAMA 4
Após as preocupações da comunidade de IA, a LMSYS – a organização por trás da tabela de classificação do Chatbot Arena – emitiu uma declaração para melhorar a transparência. O LMSYs esclareceu que o modelo enviado na chatbot arena era “LLAMA-4-MAVERICK-03-26-SIGILY”. Era uma variante personalizada do modelo, otimizada para a preferência humana.
A LMSYS reconheceu que “o tom de estilo e resposta do modelo era um fator importante”. Isso pode ter dado vantagem indevida ao modelo de Maverick personalizado Llama 4. A organização também admitiu que essas informações não foram limpas suficientemente claras pela meta -equipe. Além disso, a LMSYS afirmou: “A interpretação da Meta de nossa política não correspondeu ao que esperamos dos provedores de modelos”.
10 melhores modelos de idiomas grandes (LLMS) em 2025
Para ser justo, meta, em seu oficial LLAMA 4 Blogmencionou que “uma versão experimental de bate -papo” marcou 1.417 na chatbot arena. Mas eles não explicaram mais nada.
Finalmente, para melhorar a transparência, o LMSYS acrescentou a versão Hugging Face do Llama 4 Maverick à Chatbot Arena. Além disso, lançou mais de 2.000 resultados de batalha frente a frente para o público revisar. Os resultados incluem prompts, respostas do modelo e preferências do usuário.
Eu revisei o resultados de batalhae foi desconcertante ver os usuários preferindo constantemente as respostas frequentemente incorretas e excessivamente detalhadas da LLAMA 4. Isso levanta questões mais profundas sobre os benchmarks de confiança da comunidade, como o Chatbot Arena.
Não é a primeira vez que meta de referência de jogo
Esta não é a primeira vez que a Meta é acusada de referências de jogos por meio de contaminação por dados, ou seja, mistura de conjuntos de dados de referência no corpus de treinamento. Em fevereiro deste ano, Susan Zhang – uma ex -pesquisadora da Meta AI que agora trabalha no Google DeepMind – compartilhou um estudo revelador em resposta a um post de Yann Lecun, cientista -chefe da Meta Ai.
O estudar descobriram que mais de 50% das amostras de teste dos principais benchmarks estavam presentes nos dados de pré -treinamento da Meta Llama 1. O artigo diz: “Em particular, Big Bench Hard, Humaneval, Hellaswag, MMLU, Piqa e Triviaqa mostram níveis substanciais de contaminação em ambos os corpora”.
Agora, em meio às mais recentes alegações de hackers de referência em torno de Llama 4, Zhang tem sarcasticamente observado Essa meta deve pelo menos citar seu “trabalho anterior” da LLAMA 1 para esta “abordagem única”. O jab é direcionado a Meta que a manipulação de referência não é um acidente. Mas é uma estratégia da empresa liderada por Zuckerberg para aumentar as métricas de desempenho artificialmente.