11:50
“几乎所有大模型,视觉能力都不如3岁小孩”

最新研究揭示,多数顶尖多模态大模型的视觉处理能力远逊于3岁儿童。UniPatAI团队发布的BabyVision评测集显示,即使是最强大的Gemini3-Pro-Preview模型,在视觉任务上也仅勉强超过3岁基线。这一发现凸显了现有大模型在精细辨别、视觉追踪等关键领域的系统性缺失,表明未来模型需从根本上重建视觉能力,而非依赖语言推理。