AI攻克物理奥赛！超过人类金牌选手平均分？-（南京）软件科技有限公司

动态行业资讯

动态

AI攻克物理奥赛！超过人类金牌选手平均分？

发布时间：2025-09-18 09:00:25 阅读量: 287

【导语】长久以来，物理因题目复杂、推理强度高被视为AI在学科竞赛领域最难攻克的挑战之一。今年2025国际物理奥赛中，普林斯顿大学王梦迪教授团队打造的Physics Supernova系统成绩亮眼，在理论题测试中排名第14，表现超人类金牌选手平均分。该系统靠工具实现完整解题过程，为AI科学探索开辟新可能，不过AI物理解题系统未来仍有诸多方向值得探索。

在学科竞赛领域，物理因题目复杂、推理强度高而长期被认为是人工智能（AI）最难攻克的挑战之一。与语言类任务相比，物理问题往往涉及图像识别、单位换算、公式推导和近似计算等多重环节，更考验系统是否具备对现实世界的理解与建模能力。

随着 AI 日益深入现实世界，并不断迈向通用人工智能（AGI）乃至超级人工智能（ASI），能否通过物理抽象理解世界、解决问题，正在成为打造高水平智能系统的关键。

在今年举行的 2025 年国际物理奥林匹克竞赛中，一个名为 Physics Supernova 的 AI 系统交出了(le)令(lìng)人(rén)瞩(zhǔ)目(mù)的(de)成(chéng)绩(jī)单(dān)：在(zài) 3 道(dào)理(lǐ)论(lùn)题(tí)测(cè)试(shì)中(zhōng)，共获得 23.5 分（满分 30 分），在所有 406 名参赛选手中排名第 14，且在三道题目中均进入人类前 10%，超过了人类金牌选手的平均得分。

该系统由普林斯顿大学王梦迪教授团队及其合作者共同打造，两位第一作者分别为普林斯顿大学博士 Jiahao Qiu 和清华姚班大四本科生史景喆（在 2021 年国际物理奥林匹克竞赛中获得金牌，全球排名第十）。

不同于依赖题库的传统方式，Physics Supernova 通过图像分析、答案复核等工具模块，结合 LLM 的推理能力，实现了从题目理解到建模计算的完整过程。这一结果显示，合理集成工具的 Agent 架构，能够显著提升 AI 在复杂科学问题上的推理与解题能力，其表现已逼近人类顶尖选手，为 AI 在科学探索领域开辟了新的可能性。

业内专家指出，这一成绩不仅显(xiǎn)示(shì)了(le) AI 在(zài)物(wù)理(lǐ)解(jiě)题(tí)上(shàng)的(de)突(tū)破(pò)性(xìng)进(jìn)展(zhǎn)，也(yě)意(yì)味(wèi)着(zhe)其(qí)在(zài)科(kē)学(xué)推(tuī)理(lǐ)领(lǐng)域的(de)应(yīng)用(yòng)边(biān)界(jiè)正(zhèng)在(zài)被(bèi)重(zhòng)新(xīn)定(dìng)义(yì)。

靠(kào)工(gōng)具(jù)，AI 也(yě)能(néng)像(xiàng)物(wù)理(lǐ)学(xué)家(jiā)一(yī)样(yàng)解题

Physics Supernova 是一个专为解决复杂物理理论问题设计的 AI Agent 系统，基于 smolagents 框架，并采用 CodeAgent 架构。

与数学解题中常见的固定、手工编码的工作流不同，该系统强调具备灵活自我规划的能力，能够根据当前的解题进展，动态调用不同的工具。

图｜Physics Supernova 的架构与示例推理轨迹

研究团队为该系统配置了两个面向物理问题的专用工具：图像分析器（ImageAnalyzer）与答案(àn)复(fù)查(chá)器(qì)（AnswerReviewer）。

对(duì)于(yú)物(wù)理(lǐ)学(xué)家(jiā)而(ér)言(yán)，解(jiě)读(dú)实(shí)验(yàn)结(jié)果(guǒ)、从(cóng)图(tú)像(xiàng)中(zhōng)提(tí)取(qǔ)关键数(shù)据(jù)是(shì)十(shí)分(fēn)重(zhòng)要(yào)能(néng)力(lì)。在(zài)部(bù)分(fēn)物(wù)理(lǐ)奥(ào)赛(sài)题(tí)中(zhōng)，这(zhè)甚(shén)至(zhì)是(shì)解(jiě)题(tí)过(guò)程(chéng)的(de)核(hé)心(xīn)环(huán)节(jié)。然(rán)而(ér)，目(mù)前的 LLM 在图表、图像与示意图等视觉数据的精确测量方面仍存在不足。ImageAnalyzer 则会将高分辨率图像传递给专用的视觉语言模型，以执行精确的数值读取与测量任务。

在实际解题中，物理学家也会持续评估自己的理论结果是否具有物理意义，这包括判断结果是否具有符合预期的物理属性，或是否违反基本物理原理。AnswerReviewer 被用于在解题过程中识别错误类型并定位错误表达，从而提升系统的自我校正能力。

为研究各类工具对最终得分的影响，研究团队测试了多种工具组合。结果显示，在大多数问题中（尤其是非简单题），移除 AnswerReviewer 会导致性能显著下降。而将图像处理任务交由 ImageAnalyzer 执行，则能够有效提升整体得分。

图｜ImageAnalyzer 工具对理论题第1题C部分的影响

此外，他们还为 Physics Supernova 接入了一个用于专业领域知识的问答工具——WolframAlpha ，它是一款能够提供科学问题准确解答的计算型知识引擎，有助于提升系统在应对专业领域知识时的表现。

金牌不是终点，AI 物理系统的下一站

实验是物理研究的基础。研究团队指出，该项研究主要聚焦于 IPhO 2025 的理论题，未涉及基于仪器的实验题，部分原因在于实验仪器资源受限。

他们希望，随着机器人技术的发展，未来基于 LLM 的 AI Agent 有望具备执行实验题的能力。相较于实体仪器操作，程序化实验能够模拟更复杂、更高级的实验过程。基于程序的实验考试，有可能将评估重点从操控仪器的能力转向理解和运用物理的能力。

从长远来看，基于仪器的实验评估同样也不可或缺。这类实验更贴近现实科研情境，能够更有效地衡量 AI 系统的机器人能力，并评估其在极端或非预期条件下的表现。

除此之外，他们使用答案复查工具来验证推导过程。该工具完全基于自然语言运行。在数学领域，自动化验证已经取得了显著进展，LLM 可生成可验证的 Lean 格式证明。然而，从自然语言问题出发，推导物理公式并进行自动验证，目前尚无可靠的技术路径。这仍是一个有待深入研究的方向。

研究团队表示，未来值得探索的方向应包括：构建能验证公式、物理表达与直观推理之间抽象转换的方法；建立更加严格、可验证的物理计算体系；借(jiè)助(zhù)具备更广泛、更深入物理知识的工具，增强答案复查系统的能力。

总之，研究团队建议，未来关于 AI 物理解题系统的工作，应继续拓展其在程序实验或仪器实验方面的能力，同时增强其生成可验证、可信赖物理解答的能力。

展望未来，这类系统有望进一步发展，成为能够嵌入现实世界并执行复杂物理任务的高级智能体。

官网

公众号

品牌介绍: 概况; 企业文化; 荣誉奖项

技术能力: AI人工智能; 大数据

资讯新闻: 动态; 行业资讯

案例: 典型案例; 合作伙伴

联系: 010-83662579; 江苏省南京市江宁区将军大道南佑路43号楼

咨询热线：010-83662579
地址：江苏省南京市江宁区将军大道南佑路43号楼
公众号

官方网站-首页

首页

品牌

概况

企业文化

荣誉奖项

技术能力

AI人工智能

大数据

资讯

动态

行业资讯

案例

典型案例

合作伙伴

联系我们

联系我们

AI攻克物理奥赛！超过人类金牌选手平均分？

发布时间：2025-09-18 09:00:25 阅读量: 287