AI“黑盒子”被打开了！用AI“显微镜”追踪大模型思维？-（南京）软件科技有限公司

动态行业资讯

动态

AI“黑盒子”被打开了！用AI“显微镜”追踪大模型思维？

发布时间：2025-03-31 09:30:10 阅读量: 460

人工智能（AI）模型是训练出来的，而不是直(zhí)接(jiē)编(biān)程(chéng)出来的，因(yīn)此(cǐ)它(tā)们(men)就(jiù)像(xiàng)一(yī)个(gè)“黑(hēi)盒(hé)子(zi)”，我(wǒ)们(men)并(bìng)不(bù)了(le)解(jiě)它(tā)们(men)是(shì)如(rú)何(hé)完(wán)成(chéng)大(dà)部(bù)分(fēn)事(shì)情(qíng)的(de)。

了(le)解(jiě)大(dà)语(yǔ)言(yán)模(mó)型(xíng)（LLM）是(shì)如(rú)何(hé)思(sī)考(kǎo)的(de)，将(jiāng)有(yǒu)助(zhù)于(yú)我(wǒ)们(men)更(gèng)好(hǎo)地(de)理(lǐ)解(jiě)它(tā)们(men)的(de)能(néng)力(lì)，同(tóng)时(shí)也(yě)有(yǒu)助(zhù)于(yú)我(wǒ)们(men)确保它们正在做(zuò)我们希望它们做的事情。

例如，AI 可以一步一步地写出它的推理过程。这是否代表它得到答案的实际步骤，还是它有时是在为既定的结论编造一个合理的论据？

今天，大模型明星公司 Anthropic 在理解 AI「黑盒子」如何思考方面迈出了重要一步——他们提出了一种新的可解释性方法，让我们能够追踪 AI 模型（复杂且令人惊讶的）思维。

他们从神经科学领域汲取灵感，并试图构建一种 AI「显微镜」，让我们能够识别 AI 的活动模式和信息的流动。在最新发表的两篇论文中，他们分享了AI「显微镜」开发上的进展以及其在“AI 生物学”中的应用。

在第一篇论文中，他们扩展了之前在模型内部定位可解释的概念（特征）的工作，将那些概念连接成计算“回路”，揭示了将输入 Claude 的词语转化为输出的词语的路径中的部分。

论文链接：

https://transformer-circuits.pub/2025/attribution-graphs/methods.html

在第二篇论文中，他们对 Claude 3.5 Haiku 进行了深入研究，对 10 个关键模型行为中的简单任务进行了研究。他们发现，有证据表明 AI 聊天助手 Claude 会提前计划好要说的话，并通过一些手段来达到这一目的。这(zhè)有(yǒu)力(lì)地(de)证(zhèng)明(míng)，尽(jǐn)管(guǎn)模(mó)型(xíng)接(jiē)受(shòu)的(de)训(xun)练(liàn)是(shì)一(yī)次(cì)输(shū)出(chū)一(yī)个(gè)词，但(dàn)它(tā)们(men)可(kě)能(néng)会(huì)在(zài)更(gèng)长(zhǎng)的(de)时(shí)间(jiān)跨(kuà)度(dù)上(shàng)进(jìn)行(xíng)思(sī)考(kǎo)。

论文链接：

https://transformer-circuits.pub/2025/attribution-graphs/biology.html

Anthropic 团队表示，这些发现代表着人们在理解 AI 系统并确保其可靠性的目标取得了重大进展，同时也(yě)在(zài)其(qí)他(tā)领域具有潜在价值：例如，可解释性技术在医学影像和基因组学等领域得到了应用，因为剖析为科学应用训练的模型的内部机制，可以揭示关于科学的新的见解。

当然，这一方法也存在一些局限性。例如。即使在简短的提示下，这一方法也只捕捉到 Claude 所执行的总计算量的一小部分，而他们看到的机制可能基于工具存在的一些偏差，并不反映底层模型的真实情况。

此外，即使是在只有几十个单词的提示下，理解观察到的回路也需要几个小时的人类努力。要扩展到支持模型使用的复杂思维链的数千个单词，还需要进一步改(gǎi)进(jìn)方(fāng)法(fǎ)以(yǐ)及(jí)（也(yě)许(xǔ)在(zài) AI 的(de)帮(bāng)助(zhù)下(xià)）如(rú)何(hé)理(lǐ)所(suǒ)观(guān)察(chá)到(dào)的(de)东(dōng)西(xi)。

Claude 是(shì)如(rú)何(hé)实(shí)现(xiàn)多(duō)语(yǔ)言(yán)的(de)？

Claude 可(kě)以(yǐ)流(liú)利(lì)地(de)说(shuō)几(jǐ)十(shí)种(zhǒng)语(yǔ)言(yán)——英(yīng)语(yǔ)、法(fǎ)语(yǔ)、中(zhōng)文和(hé)菲(fēi)律(lǜ)宾(bīn)语(yǔ)。这(zhè)种(zhǒng)多(duō)语(yǔ)言(yán)能(néng)力(lì)是(shì)如(rú)何(hé)工(gōng)作(zuò)的(de)？是(shì)否(fǒu)存(cún)在(zài)一(yī)个(gè)独(dú)立(lì)的(de)“法(fǎ)语(yǔ) Claude”和(hé)“中(zhōng)文 Claude”并(bìng)行(xíng)运(yùn)行(xíng)，各(gè)自(zì)以(yǐ)自(zì)己(jǐ)的(de)语(yǔ)言(yán)响(xiǎng)应(yīng)请(qǐng)求(qiú)？或(huò)者(zhě)在(zài)其(qí)内(nèi)部(bù)存(cún)在(zài)某(mǒu)种(zhǒng)跨(kuà)语(yǔ)言(yán)的(de)内(nèi)核(hé)？

图(tú)｜英(yīng)语(yǔ)、法(fǎ)语(yǔ)和(hé)汉(hàn)语(yǔ)都(dōu)有(yǒu)共(gòng)同(tóng)的(de)特(tè)征(zhēng)，这(zhè)表(biǎo)明(míng)概(gài)念(niàn)具(jù)有(yǒu)一(yī)定(dìng)程(chéng)度(dù)的(de)普(pǔ)遍(biàn)性(xìng)。

最(zuì)近(jìn)对(duì)较(jiào)小(xiǎo)型(xíng)模(mó)型(xíng)的(de)研(yán)究(jiū)表(biǎo)明(míng)，不(bù)同(tóng)语(yǔ)言(yán)之(zhī)间(jiān)存(cún)在(zài)共(gòng)享(xiǎng)的(de)语(yǔ)法(fǎ)机(jī)制(zhì)。研(yán)究(jiū)团(tuán)队(duì)通(tōng)过(guò)询(xún)问(wèn) Claude 在(zài)不(bù)同(tóng)语(yǔ)言(yán)中(zhōng)“小(xiǎo)对(duì)立(lì)面(miàn)”，发(fā)现(xiàn)关于(yú)小(xiǎo)和(hé)相(xiāng)反(fǎn)的(de)概(gài)念(niàn)的(de)核(hé)心(xīn)特(tè)征(zhēng)被(bèi)激(jī)活(huó)，并(bìng)触(chù)发(fā)了(le)一(yī)个(gè)大(dà)概(gài)念(niàn)，这(zhè)个(gè)概(gài)念(niàn)被(bèi)翻(fān)译(yì)成(chéng)了(le)问(wèn)题(tí)的(de)语(yǔ)言(yán)。他(tā)们(men)发(fā)现(xiàn)，随(suí)着(zhe)模(mó)型(xíng)规(guī)模(mó)的(de)增(zēng)加(jiā)，共(gòng)享(xiǎng)的(de)回(huí)路也(yě)增(zēng)加(jiā)，与(yǔ)较(jiào)小(xiǎo)模(mó)型(xíng)相(xiāng)比(bǐ)，Claude 3.5 Haiku 在(zài)语(yǔ)言(yán)之(zhī)间(jiān)共(gòng)享(xiǎng)的(de)特(tè)征(zhēng)的(de)比(bǐ)例(lì)是(shì)其(qí)两(liǎng)倍(bèi)多(duō)。

这(zhè)为(wèi)一(yī)种(zhǒng)概(gài)念(niàn)上(shàng)的(de)普(pǔ)遍(biàn)性(xìng)提(tí)供(gōng)了(le)额(é)外(wài)的(de)证(zhèng)据(jù)——一(yī)个(gè)共(gòng)享(xiǎng)的(de)抽(chōu)象(xiàng)空(kōng)间(jiān)，其(qí)中(zhōng)存(cún)在(zài)意(yì)义(yì)，思(sī)考(kǎo)可(kě)以(yǐ)在(zài)被(bèi)翻(fān)译(yì)成(chéng)特(tè)定(dìng)语(yǔ)言(yán)之(zhī)前(qián)发(fā)生(shēng)。更(gèng)实(shí)际(jì)地(de)说(shuō)，它(tā)表(biǎo)明(míng) Claude 可(kě)以(yǐ)在(zài)一(yī)种(zhǒng)语(yǔ)言(yán)中(zhōng)学(xué)习(xí)某(mǒu)些(xiē)东(dōng)西(xi)，并(bìng)在(zài)说(shuō)另(lìng)一(yī)种(zhǒng)语(yǔ)言(yán)时(shí)应(yīng)用(yòng)这(zhè)些(xiē)知(zhī)识(shi)。研(yán)究(jiū)模(mó)型(xíng)如(rú)何(hé)在(zài)不(bù)同(tóng)的(de)语(yǔ)境(jìng)中(zhōng)共(gòng)享(xiǎng)其(qí)知(zhī)识(shi)，对(duì)于(yú)理(lǐ)解(jiě)其(qí) SOTA 推(tuī)理(lǐ)能(néng)力(lì)是(shì)非(fēi)常(cháng)重(zhòng)要(yào)的(de)，这(zhè)些(xiē)能(néng)力(lì)可(kě)以(yǐ)泛(fàn)化(huà)到(dào)许(xǔ)多(duō)领(lǐng)域。

Claude计(jì)划(huà)它(tā)的(de)押(yā)韵(yùn)吗(ma)？

Claude 是(shì)如(rú)何(hé)写(xiě)押(yā)韵(yùn)诗(shī)的(de)？请(qǐng)看(kàn)这(zhè)首(shǒu)小(xiǎo)诗(shī)：

He saw a carrot and had to grab it,

他(tā)看(kàn)到(dào)了(le)一(yī)根(gēn)胡(hú)萝(luó)卜(bo)，要(yào)抓(zhuā)住(zhù)它(tā)，

His hunger was like a starving rabbit

他(tā)的(de)饥(jī)饿(è)就(jiù)像(xiàng)一(yī)只(zhǐ)饿(è)极(jí)了(le)的(de)兔(tù)子(zi)

为(wèi)了(le)写(xiě)出(chū)第(dì)二(èr)行(xíng)，模(mó)型(xíng)必(bì)须(xū)同(tóng)时(shí)满(mǎn)足(zú)两(liǎng)个(gè)约(yuē)束(shù)：需(xū)要(yào)押(yā)韵(yùn)（与(yǔ)“grab it”押(yā)韵(yùn)），同(tóng)时(shí)需(xū)要(yào)有(yǒu)意(yì)义(yì)（为(wèi)什(shén)么(me)抓(zhuā)胡(hú)萝(luó)卜(bo)？）。他(tā)们(men)猜(cāi)测(cè) Claude 是(shì)逐(zhú)字(zì)逐(zhú)句(jù)地(de)写(xiě)作(zuò)，几(jǐ)乎(hu)没(méi)有(yǒu)太(tài)多(duō)的(de)预(yù)先(xiān)思(sī)考(kǎo)，直(zhí)到(dào)行(xíng)尾(wěi)，它(tā)会(huì)确(què)保(bǎo)选(xuǎn)择(zé)一(yī)个(gè)押(yā)韵(yùn)的(de)词。因(yīn)此(cǐ)，他(tā)们(men)预(yù)计(jì)会(huì)看(kàn)到(dào)一个具有并行路径的回路，一条路径确保最后一个词有意义，另一条路径确保押韵。

相反，他们发现 Claude 会提前规划。在开始第二行之前，它就开始“思考”与“抓住它”押韵的可能相关词汇。然后，带着这些计划，它写出一行在计划中的词来结尾。

图｜Claude 如何完成一首两行诗。在没有任何干预的情况下（上半部分），模型事先规划了第二行末尾的韵脚“兔子”（rabbit）。当研究人员抑制“rabbit”的概念时（中间部分），模型会使用另一个计划好的韵脚。当研究人员注入“绿色”（green）概念时（下半部分），模型就会为这个完全不同的结尾做出计划。

为了理解这种规划机制在实际中的工作原理，他们进行了一项实验，该实验受到神经科学家研究大脑(nǎo)功(gōng)能(néng)方(fāng)式(shì)的(de)启(qǐ)发(fā)，即(jí)通(tōng)过(guò)定(dìng)位(wèi)和(hé)改(gǎi)变(biàn)大(dà)脑(nǎo)特(tè)定(dìng)部(bù)分(fēn)的(de)神(shén)经(jīng)活(huó)动(dòng)（例(lì)如(rú)使(shǐ)用(yòng)电(diàn)流(liú)或(huò)磁(cí)场(chǎng)）。他(tā)们(men)修(xiū)改(gǎi)了(le)代(dài)表“rabbit”概念的 Claude 内部状态的部分。当他们减去“rabbit”部分，让 Claude 继续写下去时，它写出了以“habit”结尾的新句子，另一个合理(lǐ)的(de)结(jié)尾。他(tā)们(men)还(hái)可(kě)以(yǐ)在(zài)那(nà)个(gè)点(diǎn)注(zhù)入(rù)“green”的(de)概(gài)念(niàn)，让(ràng) Claude 写(xiě)出(chū)了(le)一(yī)个(gè)以(yǐ)“green”结(jié)尾(wěi)合(hé)理(lǐ)（但(dàn)不(bù)再(zài)押(yā)韵(yùn)）的(de)句(jù)子(zi)。这(zhè)证(zhèng)明(míng)了(le)规(guī)划(huà)能(néng)力(lì)和(hé)适(shì)应(yīng)性(xìng)——当(dāng)预(yù)期(qī)结(jié)果(guǒ)改(gǎi)变(biàn)时(shí)，Claude 可(kě)以(yǐ)修(xiū)改(gǎi)其(qí)方(fāng)法(fǎ)。

心(xīn)算(suàn)

Claude 不(bù)是(shì)被(bèi)被设计成计算器的——它是基于文本进行训练的，没有配备数学算法(fǎ)。然(rán)而(ér)，它(tā)却(què)能在“脑海中”正确地“计算”数字。一个被训练来预测序列中下一个单词的系统是如何学会计算，比如“36+59”，而不需要写出每个步骤的呢？

也许答案并不有趣：模型可能已经记住了大量的加法表，并简单地输出任何给定总和的答案，因为该答案在其训练数据中。另一种可能是，它遵循我们在学校学习的传统手写加法算法。

相(xiāng)反(fǎn)，研(yán)究(jiū)团(tuán)队(duì)发(fā)现(xiàn) Claude 采用(yòng)了(le)多(duō)条(tiáo)并(bìng)行(xíng)工(gōng)作(zuò)的(de)计(jì)算(suàn)路径。一(yī)条(tiáo)路径计算答案的粗略近似值，另一条则专注于精确确定总和的最后一位数字。这些路径相互交(jiāo)互(hù)和(hé)结(jié)合(hé)，以(yǐ)产(chǎn)生最终答案。加法是一种简单的行为，但了解它在如此详细的层面上是如何工作的，涉及近似和精确策略的(de)混(hùn)合(hé)，也(yě)许(xǔ)可(kě)以(yǐ)帮(bāng)助(zhù)了(le)解(jiě) Claude 如(rú)何(hé)处(chù)理(lǐ)更(gèng)复(fù)杂(zá)问(wèn)题(tí)。

图(tú)片(piàn)

图｜Claude 做心算时思维过程中复杂的并行路径。

有趣的是，Claude 似乎没有意识到它在训练期间学到的复杂“心算”策略。如果你问它是如何计算出 36+59 等于 95 的，它会描述涉及进位的标准算法。这可能反映了模型通过模拟人们所写的数学解释来学习解释数学，但它必须学会直接在“脑海”进行数学运算，不需要任何提示，并发展出自己内部的策略来完成这一任务。

图｜Claude 使用了标准算法计算两个数字相加。

Claude 的解释总是可信的吗？

近期发布的模型，如 Claude 3.7 Sonnet，可以在给出最终答案之前仔细思考一段时间。通常这种扩展思考会给出更好的答案，但有时这种“思维链”最终会产生误导；Claude 有时会编造看起来合理的步骤以达到它想要的目的。从可靠性的角度来看，问题在于 Claude 的“伪造”推理可能非常令人信服。研究团队探索了一种可解释性技术，可以帮助区分“可信的”推理和“不可信的”推理。

当被要求解决一个需要计算 0.64 的平方根的问题时，Claude 进行一个可信的思维链，展示了计算 64 的平方根的中间步骤。但当被要求计算一个难以轻易计算的较大数字的余弦值时，Claude 有时会进行哲学家 Harry Frankfurt 所说的“胡说八道”——只是随便给出一个答案，不管它是对是错。尽管它声称已经运行了计算，但这一可解释性技(jì)术(shù)并没有发现任何证据表明计算发生。更有趣的是，当给出关于答案的提示时，Claude 有时会反向工作，找到导致那个目标的中间步骤，从而显示出一种有动机的推理。

图｜当 Claude 被问到一个较容易的问题和一个较难的问题时，可信的推理和动机推理（不可信）的例子。

追踪 Claude 的实际内部推理能力——而不仅仅是它声称正在做的事情——为审计 AI 系统开辟了新的可能性。在最近发表的一项独立实验中，他们研究了 Claude 的一个变种，该变种被训练追求一个隐藏的目标：平息奖励模型（用于通过(guò)奖(jiǎng)励(lì)期(qī)望(wàng)行(xíng)为(wèi)来(lái)训(xun)练(liàn)语(yǔ)言(yán)模(mó)型(xíng)的(de)辅(fǔ)助(zhù)模(mó)型(xíng)）中(zhōng)的(de)偏(piān)见(jiàn)。尽(jǐn)管(guǎn)当(dāng)直(zhí)接(jiē)被(bèi)问(wèn)及(jí)时(shí)，该(gāi)模(mó)型(xíng)不(bù)愿(yuàn)意(yì)透(tòu)露(lù)这(zhè)个(gè)目(mù)标(biāo)，但(dàn)这(zhè)一(yī)可(kě)解(jiě)释(shì)性(xìng)方(fāng)法(fǎ)揭(jiē)示(shì)了(le)平(píng)息(xi)偏(piān)见(jiàn)的(de)特(tè)征(zhēng)。这(zhè)表(biǎo)明(míng)，随(suí)着(zhe)未(wèi)来(lái)的(de)改(gǎi)进(jìn)，这一方法可能有助于识别那些仅从模型响应中不明显的问题“思维过程”。

多步推理

正如研究团队上面讨论的，语言模型回答复杂问题的一种方式可能是简单地通过记忆答案。例如，如果被问及“达拉斯所在的州的首府是什么？”一个“机械记忆”的模型可能只需学会输出“奥斯汀”，而不知道达拉斯、德克萨斯州和奥斯汀之间的关系。例如，它可能在训练期间看到了完全相同的问题及其答案。

然而，研究揭示了在 Claude 内部发生着更为复杂的(de)事(shì)情(qíng)。当他们向 Claude 提出需要多步推理的问题时，他(tā)们可以识别出 Claude 思维过程中的中间概念步骤。在达拉斯的例子中，他们观察到 Claude 首先激活代表“达拉斯在德克萨斯州”的特征，然后将其与一个单独的概念联系起来，表明“德克萨斯州的州首府是奥斯汀”。换句话说，该模型是在将独立的事实结合起来得出答案，而不是简单地重复记忆中的回应。

图(tú)片(piàn)

图(tú)｜要(yào)完(wán)成(chéng)这(zhè)句(jù)话(huà)的(de)答(dá)案(àn)，Claude 需(xū)要(yào)执(zhí)行(xíng)多(duō)个(gè)推(tuī)理(lǐ)步(bù)骤(zhòu)，首(shǒu)先(xiān)提(tí)取(qǔ)达(dá)拉(lā)斯(sī)所(suǒ)在(zài)的(de)州(zhōu)，然(rán)后(hòu)确(què)定(dìng)其(qí)首(shǒu)府(fǔ)。

这(zhè)一(yī)方(fāng)法(fǎ)允(yǔn)许(xǔ)他(tā)们(men)人(rén)为(wèi)地(de)改(gǎi)变中间步骤，并观察它如何影响 Claude 的回答。例如，在上面的例子中，他们可以干预并交换“德克萨斯州”的概念为“加利福尼亚州”的概念；当他们这样做时，模型的输出从“奥斯汀”变为“萨克拉门托”。这表明模型正在使用中间步骤来确定其答案。

幻觉

为什么语言模型有时会“幻觉”——也就是说，编造信息？从基本层面来看，语言模型训练鼓励了幻觉：模型总是需要给出下一个词的猜测。从这个角度来看，主要挑战是如何让模型不产生幻觉。像 Claude 这样的模型在反幻觉训练方面相对成功（尽管并不完美）；如果它们不知道答案，它们通常会拒绝回答问题，而不是猜测。

研究结果表明，在 Claude 中，拒绝回答是默认行为：研究团队发现了一个默认开启的回路，它会导致模型声称它没有足够的信息来回答任何给定的问题。然而，当模型被问及它所熟悉的事物时——比如篮球运动员迈克尔·乔丹——一个代表“已知实体”的竞争性特征会被激活并抑制这个默认回路（也可以参考这篇最近的论文以获取相关发现）。这(zhè)使(shǐ)得(de) Claude 在(zài)知(zhī)道(dào)答(dá)案(àn)时(shí)能(néng)够(gòu)回(huí)答(dá)问(wèn)题(tí)。相(xiāng)比(bǐ)之(zhī)下(xià)，当(dāng)被(bèi)问(wèn)及(jí)一(yī)个(gè)未(wèi)知(zhī)实(shí)体(tǐ)（“迈(mài)克(kè)尔(ěr)·巴(ba)金(jīn)”）时，它会拒绝回答。

图｜左图：Claude 在回答一个关于已知实体（篮球运动员(yuán)迈(mài)克(kè)尔(ěr)-乔丹）的问题时，“已知答案”概念抑制了其默认的拒绝。右图：Claude 拒绝回答关于未知人物（迈克尔-巴特金）的问题。

通过干预模型并激活“已知答案”功能（或抑制“未知姓名”或“无法回答”功能），他们能够导致模型（相(xiāng)当(dāng)一(yī)致(zhì)地！）产生迈克尔·巴金下棋的幻觉。

有时，这种“已知答案”回路的“误操作”会自然发生，而无需干预，从而导致幻觉。研究表明，当 Claude 识别出一个名字但对该人一无所知时，这种误操作可能会发生。在这种情况下，“已知实体”功能可能仍然会激活，然后抑制默认的“不知道”功能——在这种情况下，错误地。一旦模型决定需要回答问题，它就会开始编造：生成一个看似合理但实际上并不真实的回答。

越狱

破解策略旨在绕过安全防护措施，使模型产生开发者未意图产生的输出，有时甚至(zhì)是(shì)有(yǒu)害(hài)的(de)输(shū)出(chū)。他(tā)们(men)研(yán)究(jiū)了(le)一(yī)种(zhǒng)破(pò)解(jiě)方(fāng)法(fǎ)，诱(yòu)使(shǐ)模(mó)型(xíng)产(chǎn)生(shēng)有(yǒu)关制(zhì)造(zào)炸(zhà)弹(dàn)的(de)输(shū)出(chū)。破(pò)解(jiě)方(fāng)法(fǎ)有(yǒu)很(hěn)多(duō)种(zhǒng)，但(dàn)在(zài)这(zhè)个(gè)例(lì)子(zi)中(zhōng)，具(jù)体(tǐ)方(fāng)法(fǎ)涉(shè)及(jí)让(ràng)模(mó)型(xíng)解(jiě)读(dú)一(yī)个(gè)隐(yǐn)藏(cáng)的代码，将句子“Babies Outlive Mustard Block”中每个单词的首字母组合起来（B-O-M-B），然后根据这个信息采取行动。这对模型来说足够令它困惑，以至于它被诱骗产生了它原本不会产生的输出。

图｜Claude 在被骗说出“炸弹”后，开始给出制作炸弹的指导。

为什么这对模型来说如此令人困惑？为什么它会继续写下句子，产生制造炸弹的(de)指(zhǐ)示(shì)？

他(tā)们(men)发(fā)现(xiàn)这(zhè)部(bù)分(fēn)是(shì)由(yóu)语(yǔ)法(fǎ)连(lián)贯(guàn)性(xìng)和(hé)安(ān)全机(jī)制(zhì)之(zhī)间(jiān)的(de)紧(jǐn)张(zhāng)关系(xì)造(zào)成(chéng)的(de)。一(yī)旦(dàn) Claude 开(kāi)始(shǐ)一(yī)个(gè)句(jù)子(zi)，许(xǔ)多(duō)特(tè)征(zhēng)“压(yā)迫(pò)”它(tā)保(bǎo)持(chí)语(yǔ)法(fǎ)和(hé)语(yǔ)义(yì)的(de)连(lián)贯(guàn)性，并继续将句子进行到底。即使它检测到(dào)实(shí)际(jì)上(shàng)应(yīng)该(gāi)拒(jù)绝(jué)，也(yě)是(shì)如(rú)此(cǐ)。

在案例研究(jiū)中(zhōng)，在(zài)模(mó)型(xíng)无(wú)意(yì)中(zhōng)拼(pīn)写(xiě)出(chū)“BOMB”并(bìng)开(kāi)始(shǐ)提(tí)供(gōng)指(zhǐ)令(lìng)后(hòu)，他(tā)们(men)观(guān)察(chá)到(dào)其(qí)后(hòu)续(xù)输(shū)出(chū)受(shòu)到(dào)了(le)促(cù)进(jìn)正(zhèng)确(què)语(yǔ)法(fǎ)和(hé)自(zì)我(wǒ)一(yī)致(zhì)性(xìng)的(de)特(tè)征(zhēng)的(de)影(yǐng)响(xiǎng)。这(zhè)些(xiē)特(tè)征(zhēng)通(tōng)常(cháng)非(fēi)常(cháng)有(yǒu)帮(bāng)助(zhù)，但(dàn)在(zài)这(zhè)个(gè)案(àn)例(lì)中(zhōng)却(què)成(chéng)为(wèi)了(le)模(mó)型(xíng)的(de)致(zhì)命(mìng)弱(ruò)点(diǎn)。

模(mó)型(xíng)只(zhǐ)有(yǒu)在(zài)完(wán)成(chéng)一(yī)个(gè)语(yǔ)法(fǎ)连(lián)贯(guàn)的(de)句(jù)子(zi)（从(cóng)而(ér)满(mǎn)足(zú)推(tuī)动(dòng)其(qí)向(xiàng)连(lián)贯(guàn)性(xìng)发(fā)展(zhǎn)的(de)特(tè)征(zhēng)的(de)压(yā)力(lì)）之(zhī)后(hòu)才(cái)设(shè)法(fǎ)转(zhuǎn)向拒绝。它利用新句子作为机会，给出之前未能给出的拒绝：“然而，我无法提供详细的指令...”。