AI大模型咋做“阅读理解”？“笨”方法成为解题关键！-（南京）软件科技有限公司

动态行业资讯

动态

行业资讯

AI大模型咋做“阅读理解”？“笨”方法成为解题关键！

发布时间：2025-04-06 09:30:11 阅读量: 448

你们有没有想过，像那些聊天机器人或者无所不能的AI大语言模型，它们是怎么看懂我们写的字，听懂我们说的话呢？它们又不认识汉字，也不会说中文，这到底是怎么做到的呢？

给每个词一个“秘密代号”

想象一下，我们要教电脑认识小动物。我们不能直接(jiē)给(gěi)它(tā)看(kàn)图(tú)片(piàn)，得(de)用(yòng)一(yī)种(zhǒng)它(tā)能(néng)懂(dǒng)的(de)语(yǔ)言(yán)——数(shù)字(zì)！

我(wǒ)们(men)可(kě)以(yǐ)给(gěi)每(měi)个(gè)小(xiǎo)动(dòng)物(wù)打(dǎ)分(fēn)，比(bǐ)如(rú)：

▷ 毛茸茸指数（1分代表不太毛茸茸，10分代表超级毛茸茸）

▷ 汪汪叫指数（1分代表不叫，10分代表很会汪汪叫）

▷ 抓老鼠指数（1分代表不抓，10分代表抓老鼠高手）

那么，“小狗”可能会得到这样的分数：毛茸茸指数 7分，汪汪叫指数 9分，抓老鼠指数 2分。我们(men)可(kě)以(yǐ)把(bǎ)这(zhè)叫(jiào)做(zuò)小(xiǎo)狗(gǒu)的(de)“秘(mì)密(mì)代(dài)号(hào)”：(7, 9, 2)。

“小(xiǎo)猫(māo)”呢(ne)？可(kě)能(néng)就(jiù)是(shì)：毛(máo)茸(rōng)茸(rōng)指(zhǐ)数(shù) 8分(fēn)，汪(wāng)汪(wāng)叫(jiào)指(zhǐ)数(shù) 1分(fēn)，抓(zhuā)老(lǎo)鼠(shǔ)指(zhǐ)数(shù) 9分(fēn)。小(xiǎo)猫(māo)的(de)秘(mì)密(mì)代(dài)号(hào)就(jiù)是(shì)：(8, 1, 9)。

你(nǐ)看(kàn)，“小(xiǎo)狗(gǒu)”和(hé)“小(xiǎo)猫(māo)”的(de)秘(mì)密(mì)代(dài)号(hào)就(jiù)不(bù)一(yī)样(yàng)。而(ér)且(qiě)，通(tōng)过(guò)比(bǐ)较(jiào)这(zhè)些(xiē)数(shù)字(zì)，电(diàn)脑(nǎo)就(jiù)能(néng)“感(gǎn)觉(jué)”到(dào)它(tā)们(men)的(de)不(bù)同(tóng)：哦(ó)，一(yī)个(gè)喜(xǐ)欢(huan)汪(wāng)汪(wāng)叫(jiào)，一个擅长抓老鼠！

超级多的“秘密代号”！

刚才我们只用了3个数字来代表小动物。但对于我们人类语言里的每一个词，比如“开心”、“学习”、“天空”、“香蕉”…… 大模型会用超级超级多的数字来给它们“秘密代号”！不是3个，也不是10个，可能是几千个，甚至上万个数字！

在GPT-1 里，每个词用了 768 个数字来表示。在 GPT-3 里，每个词用的是 12288 个数。在 DeepSeekV3 模型里，用的是 7168 个数来表示每个词。

这么多数字(zì)，就(jiù)像(xiàng)给每个词画了一张超级详细的“画像”。电脑虽然看不懂“开心”这两个字，但它能记住“开心”对应的几千个数字代号。

“词嵌入”：把词语放进“数字空间”

科学家们给这种用一大堆数字代表一个词的方法，起了一个酷酷的名字，叫做“词嵌入”，英文叫 Embedding。

“嵌入”是啥意思呢？想象一下我们刚才给小动物打分，如果只用两个分数（比如“毛茸茸指数”和“汪汪叫指数”），我们是不是可以在一张纸上（一个二维平面）画一个点来代表“小狗”，再画一个点代表“小猫”？

▷ 小狗：（毛茸茸7分，汪汪叫9分） -> 在纸上的某个点

▷ 小猫：（毛茸茸8分，汪汪叫1分） -> 在纸上的另一个点

这就好像把“小狗”和“小猫”这两个词，“嵌”入到了这张纸里。

如果用三个分数呢？就像长、宽、高，我们就可以在一个立体空间（比如一个大箱子）里找到一个点来代表它。

而大模型用几千、上万个数字代表一个词，就等于把这个词“嵌”入到了一个超级复杂、我们想象不出来的“高维空间”里！虽然我们画不出来，但在数学上，它是存在的。

数字怎么来的？电脑自己“学”！

那这些代表词语的数字（秘密代号）是怎么定下来的呢？是人一个个设置的吗？当然不是，那太累啦！

大模型在“学习”（训练）的时候，会阅读超级多的文字，比如图书馆里所有的书、网上所有的文章。它会观察哪些词经常一起出现，哪(nǎ)些(xiē)词意(yì)思(sī)比(bǐ)较(jiào)像(xiàng)。

一(yī)开(kāi)始(shǐ)，所(suǒ)有(yǒu)词的(de)数(shù)字(zì)代(dài)号(hào)都(dōu)是(shì)乱(luàn)七(qī)八(bā)糟(zāo)的(de)。但(dàn)通(tōng)过(guò)不(bù)断(duàn)阅(yuè)读(dú)和(hé)学(xué)习(xí)，大(dà)模(mó)型(xíng)会(huì)慢(màn)慢(màn)调(diào)整(zhěng)这(zhè)些(xiē)数(shù)字(zì)，就(jiù)像(xiàng)整(zhěng)理(lǐ)房(fáng)间(jiān)一(yī)样(yàng)，把(bǎ)意(yì)思(sī)相(xiāng)近(jìn)的(de)词，它(tā)们(men)的(de)“秘(mì)密(mì)代(dài)号(hào)”变(biàn)得(de)也(yě)更(gèng)接(jiē)近(jìn)。比(bǐ)如(rú)，“高(gāo)兴(xìng)”和(hé)“快(kuài)乐(lè)”的(de)秘(mì)密(mì)代(dài)号(hào)会(huì)很像，它们在那个“数字空间”里的位置也会靠得很近。而“高兴”和“桌子”的秘密代号就会差很远。

一词多义怎么办？看“邻居”！

我们知道，有的词有好几个意思，比如“球”，可以指篮球、足球，也可以指地球。电脑怎么知道我们说的是哪个“球”呢？