全球最大AI榜单塌房，52%高分答案全是胡扯，硅谷大厂集体造假？

jovi • 2026年1月8日下午6:03 • • 阅读 0

文章揭露了LMArena作为大模型评测平台的严重问题，指出其评分机制存在缺陷，导致超过一半的最佳答案是错误的。…

文章揭露了LMArena作为大模型评测平台的严重问题，指出其评分机制存在缺陷，导致超过一半的最佳答案是错误的。主要问题在于用户偏好长回答和美观格式而非准确性，这促使一些公司如Meta通过优化格式而非内容来提升排名。此现象不仅误导了AI研究方向，还可能损害整个行业的健康发展。

来源：36氪

主题测试文章，只做测试使用。发布者：jovi，转转请注明出处：https://uxwork.cn/archives/ai-news/%e5%85%a8%e7%90%83%e6%9c%80%e5%a4%a7ai%e6%a6%9c%e5%8d%95%e5%a1%8c%e6%88%bf%ef%bc%8c52%e9%ab%98%e5%88%86%e7%ad%94%e6%a1%88%e5%85%a8%e6%98%af%e8%83%a1%e6%89%af%ef%bc%8c%e7%a1%85%e8%b0%b7%e5%a4%a7