一夜200万阅读，OpenAI神同步，这项测评框架让全球顶尖LLM全翻车

jovi • 2026年1月15日上午9:40 • • 阅读 0

中国团队领衔全球24所顶尖机构发布《Evaluating LLMs in Scientific Discovery》论文，推出LLMs for Science首套评测体系SDE，直指现有模型在科学发现领域的不足。研究表明，当前大语言模型如GPT-5、Claude-4.5等在科学研究中的表现远低于预期，暴露了多步推理和实验分析能力的短板。该论文引发了全球AI领域的广泛关注，重新定义了AI助力科学发现的标准。

🔗 [认知原点]：https://36kr.com/p/3640002177387650

来源：36氪

主题测试文章，只做测试使用。发布者：jovi，转转请注明出处：https://uxwork.cn/archives/ai-news/%e4%b8%80%e5%a4%9c200%e4%b8%87%e9%98%85%e8%af%bb%ef%bc%8copenai%e7%a5%9e%e5%90%8c%e6%ad%a5%ef%bc%8c%e8%bf%99%e9%a1%b9%e6%b5%8b%e8%af%84%e6%a1%86%e6%9e%b6%e8%ae%a9%e5%85%a8%e7%90%83%e9%a1%b6%e5%b0%96ll