“几乎所有大模型，视觉能力都不如3岁小孩”

jovi • 2026年1月13日上午11:50 • • 阅读 0

最新研究揭示，多数顶尖多模态大模型的视觉处理能力远逊于3岁儿童。UniPatAI团队发布的BabyVision…

最新研究揭示，多数顶尖多模态大模型的视觉处理能力远逊于3岁儿童。UniPatAI团队发布的BabyVision评测集显示，即使是最强大的Gemini3-Pro-Preview模型，在视觉任务上也仅勉强超过3岁基线。这一发现凸显了现有大模型在精细辨别、视觉追踪等关键领域的系统性缺失，表明未来模型需从根本上重建视觉能力，而非依赖语言推理。

来源：36氪

主题测试文章，只做测试使用。发布者：jovi，转转请注明出处：https://uxwork.cn/archives/ai-news/%e5%87%a0%e4%b9%8e%e6%89%80%e6%9c%89%e5%a4%a7%e6%a8%a1%e5%9e%8b%ef%bc%8c%e8%a7%86%e8%a7%89%e8%83%bd%e5%8a%9b%e9%83%bd%e4%b8%8d%e5%a6%823%e5%b2%81%e5%b0%8f%e5%ad%a9