官方网站-首页【导语】近日,中国科学院自动化研究所神经计算与脑机交互课题组与脑科学与智能技术卓越创(chuàng)新(xīn)中(zhōng)心(xīn)联(lián)合(hé)团(tuán)队(duì)取(qǔ)得(de)突(tū)破(pò)性(xìng)进(jìn)展(zhǎn)。他(tā)们(men)通过行为实验与神经影像分析,首次证实多模态大语言模型能够自发形成与人类高度相似的物体概念表征系统。这一发现揭示了AI在“理解”事物上的新机制,为探索人工智能的“思考”方式开辟了新路径,并为未来构建具备人类般理解能力的AI系统奠定了坚实基础。相关研究成果已发表于《自然·机器智能》杂志。
近日,中国科学院自动化研究所神经计算与脑机交互(NeuBCI)课题组与中国科学院脑科学与智能技术卓越创新中心的联合团队结合行为实验与神经影像分析,首次证实多模态大语言模型(MLLMs)能够自发形成与人类高度相似的物体概念表征系统。
科研人员证实,多模态大语言模型在训练过程中自己学会了“理解”事物,而且这种理解方式和人类非常类似。
这一发现为探索人工智能如何“思考”开辟了新路,也为未来打造像人类一样“理解”世界的人工智能系统打下了基础。相关研究(jiū)成(chéng)果(guǒ)在(zài)线(xiàn)发(fā)表(biǎo)于(yú)《自(zì)然(rán)·机(jī)器(qì)智(zhì)能(néng)》杂(zá)志(zhì)。

核(hé)心(xīn)发(fā)现(xiàn):AI的(de)“心(xīn)智(zhì)维(wéi)度(dù)”与(yǔ)人(rén)类(lèi)殊(shū)途(tú)同(tóng)归(guī)
传(chuán)统(tǒng)人(rén)工(gōng)智(zhì)能(néng)研(yán)究(jiū)聚(jù)焦(jiāo)于(yú)物(wù)体(tǐ)识(shi)别(bié)准(zhǔn)确(què)率(lǜ),却(què)鲜(xiān)少(shǎo)探(tàn)讨(tǎo)模(mó)型(xíng)是(shì)否(fǒu)真(zhēn)正“理解”物体含义。“当前人工智能可以区分猫狗图片,但这种‘识别’与人类‘理解’猫狗有什么本质区别,仍有待揭示。”论文通讯作者、中国科学院自动化研究所研究员何晖光说。
在这项研究中,科研人员借鉴人脑认知的原理,设计了一个巧妙的实验:让大模型和人类玩“找不同(tóng)”游(yóu)戏(xì)。
研(yán)究(jiū)人(rén)员(yuán)从(cóng)海量大模型行为数据中提取出66个“心智维度”,并为这些维度赋予了语义标签。研究发现,这些维度是高度可解释的,且与大脑类别选择区域(如处理面孔的FFA、处理场景的PPA、处理躯体的EBA)的神经活动模式显著相关。
研究还对比了多个模型在行为选择模式上与人类的一致性(Human consistency)。结果显示,多模态大模型(如 Gemini_Pro_Vision、Qwen2_VL)在一致性方面表现更优。此外,研究还揭示了人类在做决策时更倾向于结合视觉特征和语义信息进行判断,而大模型则倾向于依赖语义标签和抽象(xiàng)概(gài)念(niàn)。本(běn)研(yán)究(jiū)表(biǎo)明(míng)大(dà)语(yǔ)言(yán)模(mó)型(xíng)并(bìng)非(fēi)“随(suí)机(jī)鹦(yīng)鹉(wǔ)”,其(qí)内(nèi)部(bù)存(cún)在(zài)着(zhe)类(lèi)似(shì)人(rén)类(lèi)对(duì)现(xiàn)实(shí)世(shì)界(jiè)概(gài)念(niàn)的(de)理(lǐ)解(jiě)。更(gèng)重(zhòng)要(yào)的(de)是(shì),这(zhè)些(xiē)“理(lǐ)解(jiě)”事(shì)物(wù)的(de)关键角(jiǎo)度(dù),能(néng)同(tóng)时(shí)看(kàn)懂(dǒng)文字(zì)和(hé)图(tú)片(piàn)的(de)多(duō)模(mó)态(tài)模型,“思考”和做选择的方式比其他模型更接近人类。
综合来源:中国科学院自动化研究所、科技日报、新华网等
