AI做化学奥赛题准确率超93%,但“看图”反而会答错?这项研究揭开大模型科学推理的真实短板
当我们惊叹于ChatGPT能写论文、能编代码时,一个更根本的问题浮出水面:AI究竟能不能真正理解科学?
近日发表在Nature旗下《通讯-化学》的一项研究,给出了一个出人意料的答案——顶尖AI模型做化学奥赛题的准确率已超过93%,远超人类选手平均水平;但诡异的是,给某些模型“看图”之后,它们反而更容易答错。
这项来自科大讯飞研究院与认知智能全国重点实验室的研究,像一面镜子,照出了当前AI科学推理能力的真实面貌。
一个反常识的发现
研究团队从二十余年的美国化学奥林匹克竞赛中精选出473道图文结合题目,构建了名为USNCO-V的评测基准,随后对40款主流多模态大模型进行了系统测试。
测试结果令人振奋又困惑。振奋的是,GPT-5以93.2%的准确率登顶,将人类选手44.6%的平均成绩远远甩在身后。困惑的是,当研究人员尝试移除题目中的图像、只保留文字描述时,部分模型的表现竟然更好了。
这意味着什么?图像本应提供额外信息帮助解题,但对某些AI而言,图像反而成了“干扰项”。研究团队将这一现象命名为“视觉失配效应”——当前多模态AI的视觉模块与语言模块之间,尚未建立起真正有效的协作机制。
“这就像一个学生,阅读理解能力很强,但一看到配图就分心走神。”一位未参与该研究的AI领域学者如此评价。
分子结构和实验装置,仍是AI的“盲区”
研究还发现,不同类型的视觉信息对AI的挑战程度差异显著。面对表格和常规数据图,大模型表现稳健;但遇到分子结构式和实验装置示意图时,即便是最先进的模型也频频失误。
这一发现揭示了AI科学推理的核心瓶颈:真正的科学理解不仅需要“看懂”图像,更需要将视觉符号转化为化学语义,再进行逻辑推演。这种跨模态的深度融合能力,正是当前技术亟待突破的方向。
大模型国家队的科学野心
值得关注的是,这项研究的发表方——科大讯飞,正是国内人工智能国家队的核心成员之一。依托认知智能全国重点实验室,这家公司近年来在AI for Science领域动作频频。
公开资料显示,科大讯飞已构建起覆盖多学科的科研智能体系:与中科院共建的“星火科研助手”服务超17万名科研人员;在化工领域推出的智能化工大模型已迭代至3.0版本;在核聚变研究方向也有模型成果发表于国际顶刊。
更值得注意的是其技术路线的选择。据了解,科大讯飞星火大模型强调全栈自主可控,底层算力与核心算法均实现全国产化方案。在当前国际科技博弈的大背景下,这一布局的战略意义不言而喻。
从“能用”到“好用”,AI科学推理还有多远?
此次研究的意义,不仅在于揭示问题,更在于提供了解决思路。研究团队发现,思维链(Chain-of-Thought)提示技术能显著提升中等规模模型的推理能力,使GPT-4.1-mini在无需额外训练的情况下准确率提升超过26个百分点。
这表明,通过优化推理策略,现有模型仍有巨大的提升空间。
当AI从“语言理解”迈向“科学理解”,一扇新的大门正在打开。尽管当前技术仍存在明显短板,但正如这项研究所展示的,认清差距本身就是进步的开始。
对于正在加速追赶的中国AI产业而言,这面“镜子”来得恰逢其时。

热门文章
L'ATELIER DE JOËL ROBUCHON HONG KONG 延续十八载辉煌传奇 今夏载誉回归置地廣塲
2025年TOURISE大奖揭晓:东京、纽约、安卡什与巴黎荣获首届殊荣
从“眼巴巴”到“手飒飒”,5年59次打破国外技术垄断——国家管网集团北京管道有限公司“红色劲旅自主维保突击队”攻坚实录
2025年度全国会计专业技术中级资格考试 (甘肃考区)报名公告
「全球能源循环计划」愿景发布 电池循环经济加速落地
品誉咨询——绩效破局:从 “效率优先” 到 “效能质变” 的管理范式革新