Xai é acusado de manipulações com os resultados do teste GROK

Jake

6 horas atrás

) Os dados abertos dos testes GROK 3 na plataforma Aime 2025 acabaram sendo controversos, o que levou a acusações de uma possível distorção de resultados reais. De acordo com a IZ, referindo -se ao TechCrunch, os representantes do OpenAI disseram que os gráficos publicados pelo XII não levam em consideração a metodologia Contras@64, que afetam significativamente as avaliações finais dos modelos. No entanto, o fundador do XII insiste que a empresa atuou como parte da avaliação correta das capacidades de seu produto. O XII apresentou o Grok 3 como a IA mais inteligente do mundo, mas não levando em consideração a técnica especial que oferece aos concorrentes uma vantagem adicional. Com os testes padrão, o GROK 3 beta mostra um desempenho mais baixo do que os modelos OpenAI competitivos, incluindo O3-Mini-High. Os pesquisadores dizem que, sem uma comparação clara de todos os modelos em termos iguais, é difícil avaliar o desempenho real de cada um deles, o que apenas aumenta a confusão entre usuários e investidores. Este conflito. Pesquisadores de inteligência artificial enfatizaram repetidamente que os indicadores de controle nem sempre refletem completamente as capacidades reais da tecnologia. Além disso, a questão do custo dos recursos que as empresas consomem para os indicadores máximos permanecem abertos. Nesse sentido, muitos especialistas oferecem uma única abordagem para testar os modelos de IA, o que evitará essas disputas no futuro.
Source