官方网站-首页DeepSeek公司背景与发展
DeepSeek于2023年成立,其母公司幻方量化在量化投资领域成绩斐然,是国内顶尖的量化投资公司,管理规模曾一度突破千亿大关。2020年3月,幻方量化建立萤火一号算力集群,紧接着在2021年建立萤火二号,二者共同构成了当时亚洲规模最大的私有化AI算力池,拥有近万张A100 卡。当时,幻方量化出于自身量化投资对算力的需求建立此算力池,同时面向公众开放使用。这一举措为后来大模型的发展奠定了坚实基础,也展现了幻方量化在技术布局上的前瞻性。

DeepSeek模型发展历程
DeepSeek在模型研发上稳步推进,2024年初推出首个大模型版本,起初在行业内并未引起较大轰动。然而,2024年5月推出的V2版本开始崭露头角,性能对标GPT-4,而价格仅为GPT-4的百分之一。在国外学术圈和工业圈,它早早受到关注,特别是在代码开发领域表现突出,成为国外众多AI Coding软件中唯一集成的国产大模型。去年年底推出的V3和R1版本更是引起了国内外的广泛关注,其模型性能对标国外最顶尖的OpenAI-o1模型,充分展示了DeepSeek在技术研发上的实力。
DeepSeek技术优势剖析
基于强化学习的训练方式
DeepSeek-R1的Zero版本基于大规模强化学习进行训练,抛弃了传统的基于人类标注反馈数据训练的奖励模型,选择了客观评价指标作为奖励模型。这种奖励模型主要基于两个核心要点:一是回答的答案是否准确,即是否可通过计算规则进行检验;二是答案格式是否符合要求,即是否包含了思考的过程。以回答数学问题为例,若模型简单回答正确记1分,若通过逻辑推理得出正确答案则记2分,答案错误记0分;在代码生成任务中,通过编译器运行结果判断,符合预期记1分(fēn),编(biān)译(yì)失(shī)败(bài)或(huò)结(jié)果(guǒ)错(cuò)误(wù)记(jì)0分(fēn),有(yǒu)思(sī)考(kǎo)过(guò)程(chéng)会(huì)额(é)外(wài)加(jiā)分(fēn)。与(yǔ)传(chuán)统(tǒng)依(yī)赖(lài)人(rén)类(lèi)标(biāo)注(zhù)的(de)方(fāng)式(shì)相(xiāng)比(bǐ),DeepSeek的(de)评(píng)价(jià)方(fāng)式(shì)更(gèng)加(jiā)客(kè)观(guān),有(yǒu)效(xiào)避(bì)免(miǎn)了(le)人(rén)类(lèi)标(biāo)注(zhù)存(cún)在(zài)的(de)效(xiào)率(lǜ)和(hé)准(zhǔn)确(què)率(lǜ)问(wèn)题(tí),同(tóng)时(shí)也(yě)规(guī)避(bì)了(le)人(rén)工(gōng)反(fǎn)馈(kuì)带(dài)来(lái)的(de)主观(guān)和(hé)价(jià)值(zhí)观(guān)因(yīn)素(sù)影(yǐng)响(xiǎng)。


创新的模型架构
在模型架构方面,DeepSeek有诸多创新。DeepSeek采取目前流行的混合专家(MoE)架构,MoE借鉴了人类大脑的工作原理。大脑的不同区域负责不同功能,如前额叶负责逻辑推理,颞叶中的梭状回面孔区负责人脸识别、而海马体负责记忆等。MoE架构下参数量虽大,但特定任务仅由特定的一小部分参数处理,这极大地降低了计算消耗,同时也便于对参数权重进行定向优化。此外,DeepSeek自主创新的MLA模型通过算法调整,减少了推理过程的KV Cache,降低了显存消耗,进而提高了推理效率。这两种架构的结合,为DeepSeek的高性能表现提供了有力支持。

软硬件协同优化策略
虽然DeepSeek很早就建设了万卡集群,但是与国外同行相比,规模依然不足。面对算力资源的限制,DeepSeek采用了精细的调度算法,压榨硬件的每一分算力。传统方式在训练时,参数权重更新需一层一层按顺序处理,存在排队等待的情况,导致算力利用率不高。而DeepSeek的DualPipe调度算法类似于流程优化,通过合理安排前向过程、后向过程以及层间通讯,使有前后依赖的任务紧密协作,从而在最短时间内完成一轮迭代训练。这种软硬件协同的方式,在国产GPU算力与英伟达GPU存在差距的情况下,通过软件优化弥补了硬件的不足,为AI产业的发展开辟了新的路径。

DeepSeek的特点
DeepSeek的以下几个特点,使其成为独树一帜的标杆(gān)。
首(shǒu)先(xiān),其(qí)训(xun)练(liàn)成本大幅下降,外媒报道仅需几百万美元,与之前动辄上亿的训练成本相比成本显著降低。同时,通过蒸馏DeepSeek生成高质量的推理数据,再利用这些数据微调像千问、Llama等开源小模型,用极低成本大幅(fú)提(tí)升(shēng)了(le)这(zhè)些(xiē)小(xiǎo)模(mó)型(xíng)的(de)性(xìng)能(néng)。
其(qí)次(cì),DeepSeek将(jiāng)最(zuì)大(dà)规(guī)模(mó)的(de)671B模(mó)型(xíng)参(cān)数(shù)完(wán)全公(gōng)开(kāi),且(qiě)开(kāi)源(yuán)协(xié)议(yì)非(fēi)常(cháng)宽(kuān)松(sōng),允(yǔn)许(xǔ)自(zì)由(yóu)修(xiū)改(gǎi)、复(fù)制(zhì)和(hé)商(shāng)业(yè)化(huà),这(zhè)消(xiāo)除(chú)了(le)企(qǐ)业(yè)在(zài)数(shù)据安全方面的顾虑,使企业能够放心地在自己的环境内部署私有化版本,将企业内部的文档、技术资料甚至财务数据用于大模型的问答和应用,扫除了大模型应用的最大障碍。
因此,DeepSeek彻底颠覆了AI产业原有的商业模式,原来通过商用模型部署的业务模式因DeepSeek的出现而发生巨大改变。

DeepSeek使用经验分享
访问与替代方案
目前,DeepSeek提供了官网和APP供用户使用,但是因用户量爆棚,在使用时可能会出现不稳定的情况。在这种情况下,有一些替代方案可供选择,如腾讯元宝和 纳米搜索等。这些平台支持全尺寸模型的问答功能,还具备联网搜索和文件上传等功能,在DeepSeek官网不稳定时能为用户提供备用方案。

使用技巧与注意事项
使用DeepSeek时,打开“深度思考”开关至关重要,因为该开关关闭时使用的是V3非推理模型,而打开后则调用R1推理模型,能获得更强大的功能。在提问方式上,相比以往复杂的提示词工程,DeepSeek推荐使用更自然的表达方式。用户只需专注描述问题的背景信息、明确自己的目标(biāo)以(yǐ)及(jí)添(tiān)加(jiā)风(fēng)格(gé)提(tí)示(shì)等(děng),例(lì)如(rú)要(yào)求(qiú)“面(miàn)向(xiàng)初(chū)中(zhōng)生(shēng)以(yǐ)鲁(lǔ)迅(xùn)风(fēng)格写一篇食品类科普文章”。此外,强烈推荐用户阅读清华大学出版的关于DeepSeek使用介绍的 PPT,其中详细介绍了向DeepSeek提问的技巧,有助于用户更好地与模型进行交互。

如何将DeepSeek用于科普创作?
科普主题发掘
DeepSeek在科普主题发掘方面具有很大的潜力。它可以在特定领域,如前沿科技、城市生活常识、当下流行的伪科学等方向,为创作者提供科普主题。同时,还能根据不同的受众群体,生成相应的主题。例如,针对60~70岁的老人,DeepSeek会提供围绕健康管理方面的三高管理、科学饮食,以及退休后的心理健康指南等主题;而针对青少年破除伪科学的需求,DeepSeek会提供星座算命、手机致癌、外星人绑架等新奇有趣的主题。此外,结合近期热点新闻,DeepSeek能从热点话题中筛选出有价值的科普主题,如根据近期小行星撞地球的热点话题,为科普创作提供灵感。
科普内容生成
基于给定的科普主题,DeepSeek能够为不同受众生成针对性的科普内容。以人造太阳的科普为例,当要求为小学三年级学生创作科普文章(zhāng)时(shí),它(tā)会(huì)避(bì)免(miǎn)使(shǐ)用(yòng)专(zhuān)业(yè)术(shù)语(yǔ),尽(jǐn)量(liàng)用(yòng)浅(qiǎn)显(xiǎn)易(yì)懂(dǒng)的(de)语(yǔ)言(yán)描(miáo)述(shù)人(rén)造(zào)太(tài)阳(yáng)的(de)价(jià)值(zhí)和(hé)功(gōng)能(néng);而(ér)当(dāng)为(wèi)高(gāo)中(zhōng)三(sān)年(nián)级(jí)学(xué)生(shēng)创(chuàng)作(zuò)时(shí),则(zé)会(huì)包(bāo)含(hán)科(kē)学(xué)专(zhuān)业(yè)术(shù)语(yǔ)和(hé)相(xiāng)关数(shù)据(jù),适(shì)合(hé)高(gāo)中(zhōng)学(xué)生(shēng)作(zuò)为(wèi)课(kè)外(wài)拓(tà)展(zhǎn)阅(yuè)读(dú)。DeepSeek还(hái)可(kě)以(yǐ)生(shēng)成(chéng)短(duǎn)视(shì)频(pín)脚(jiǎo)本(běn),为(wèi)科(kē)普(pǔ)短(duǎn)视(shì)频(pín)的(de)制(zhì)作(zuò)提(tí)供(gōng)便(biàn)利(lì)。同(tóng)时(shí),在(zài)科(kē)普(pǔ)分(fēn)级(jí)读(dú)物(wù)方(fāng)面(miàn),它(tā)具(jù)有(yǒu)生(shēng)成(chéng)不(bù)同(tóng)难(nán)度(dù)文章(zhāng)的(de)能(néng)力(lì),通(tōng)过(guò)难(nán)度(dù)设(shè)定(dìng)可(kě)以(yǐ)精(jīng)确(què)匹(pǐ)配(pèi)不(bù)同(tóng)阅(yuè)读(dú)水(shuǐ)平(píng)的(de)需(xū)求(qiú),这(zhè)对(duì)于(yú)中(zhōng)文科(kē)普(pǔ)分(fēn)级(jí)读(dú)物(wù)的(de)发(fā)展(zhǎn)具(jù)有(yǒu)重(zhòng)要(yào)意(yì)义(yì)。

此外,在科普访谈方面,DeepSeek可以根据访谈对象和主题,结合互联网上的相关材料,生成定制化的访谈提纲。访谈结束后,还能根据访谈文字稿辅助生成总结文章,提高工作效率。在处理国外前沿论文时,DeepSeek可以将论文内容转化为有趣的科普文章,在内容风格上并非机械解读,而是结合科普宣传的需求,吸引读者的注意力。
拓展应(yīng)用场景
DeepSeek结合其他技术,能够拓展科普内容创作的边界。例如,结合简易AI自动化匹配视频素材并进行剪辑,再结合文本生成语音(TTS)技术,可以制作完整的科普短视频;结合豆包进行文本生成,实现图文混排,使科普内容更具吸引力;结合Kimi等相关工(gōng)具(jù)可(kě)以制作科普PPT,用于展示科普知识;结合数字人技术生成科普数(shù)字(zì)人(rén),为(wèi)中小学生或特定用户群体介绍科普内容,这种应用在科普基地、博物馆等场所具有广阔的发展空间。

AI时代不缺好答案,而是缺好问题。提出好问题可能是人们未来需要学习、提高的重要素质。期待人工智能未来在科普内容创(chuàng)作(zuò)领(lǐng)域发(fā)挥(huī)更(gèng)大(dà)的(de)价(jià)值(zhí),助(zhù)力(lì)全民科学素质水(shuǐ)平(píng)提(tí)升(shēng)。
(作者:董霖,浙江省科普联合(hé)会(huì)副(fù)会(huì)长(zhǎng)、每(měi)日(rì)互动创始团队成员、首席数据官)
本文根据浙江省科普联合会周四夜学内容整理
