【導(dǎo)讀】全球 AI 競(jìng)賽正酣,DeepSeek 的出現(xiàn),宛如一石激水,打破了原有的平靜。作為資深技術(shù)專家和行業(yè)觀察者,CSDN 高級(jí)副總裁、Boolan 首席技術(shù)專家李建忠將在本文撥開(kāi)“DeepSeek 熱”的表象,深入探究其背后的技術(shù)創(chuàng)新邏輯和生態(tài)戰(zhàn)略布局,揭示 DeepSeek 如何在全球 AI 競(jìng)爭(zhēng)中脫穎而出,并預(yù)見(jiàn)其對(duì)未來(lái) AI 格局可能產(chǎn)生的深遠(yuǎn)影響。
春節(jié)期間,DeepSeek 在全球科技圈引發(fā)強(qiáng)烈震動(dòng)。“DeepSeek 時(shí)刻” 、“國(guó)運(yùn)級(jí)創(chuàng)新”等熱議現(xiàn)象在歐美科技界和國(guó)內(nèi)不斷涌現(xiàn),西方主流媒體如《自然》、《紐約時(shí)報(bào)》、《經(jīng)濟(jì)學(xué)人》也紛紛報(bào)道,全球科學(xué)、技術(shù)、金融、政府、軍事等領(lǐng)域的專家政要亦高度關(guān)注。盡管對(duì)于 DeepSeek 的評(píng)價(jià)各有側(cè)重,但其出圈和影響力已不容忽視。
DeepSeek 到底做了什么?所謂的“DeepSeek 時(shí)刻”或者“國(guó)運(yùn)級(jí)創(chuàng)新”到底意味著什么?
個(gè)人認(rèn)為 DeepSeek 巨大的影響力不僅僅在于它在 AI 領(lǐng)域?qū)崿F(xiàn)的幾個(gè)方面的關(guān)鍵技術(shù)創(chuàng)新,更重要的是由其引發(fā)的對(duì)全球 AI 生態(tài)版圖的升級(jí)和重塑。本文將從以下兩個(gè)維度,談?wù)勎覍?duì) DeepSeek 的創(chuàng)新研究和思考:
(一)DeepSeek 的關(guān)鍵技術(shù)創(chuàng)新;
(二)DeepSeek 對(duì)于大模型的生態(tài)意義。
DeepSeek 的關(guān)鍵技術(shù)創(chuàng)新
1.開(kāi)源強(qiáng)化學(xué)習(xí)引領(lǐng)推理計(jì)算范式轉(zhuǎn)換
去年 9 月份 OpenAI 發(fā)布的 o1 模型展現(xiàn)了強(qiáng)化學(xué)習(xí)在推理計(jì)算方面的卓越能力,但是 OpenAI 既沒(méi)有開(kāi)源,技術(shù)報(bào)告也語(yǔ)焉不詳,全球 AI 界雖然對(duì)大模型將迎來(lái)從預(yù)訓(xùn)練到推理計(jì)算的范式轉(zhuǎn)換抱有很高期待,但一直沒(méi)有成功的復(fù)現(xiàn)。直到 DeepSeek R1 的出現(xiàn),無(wú)論是在以推理為主的各項(xiàng)國(guó)際公認(rèn)的評(píng)測(cè)指標(biāo)上、還是實(shí)際使用感受上,都超越 Claude Sonnet 3.5 、OpenAI GPT-4o 等一眾前沿閉源模型。
DeepSeek 的推理計(jì)算路線也讓很多業(yè)內(nèi)專家嘆為觀止,其使用純粹 RL(強(qiáng)化學(xué)習(xí)),無(wú)需 SFT(監(jiān)督微調(diào)),不依賴?yán)鋯?dòng)數(shù)據(jù),成功地實(shí)現(xiàn)了靠純 RL(強(qiáng)化學(xué)習(xí))來(lái)激勵(lì)大模型的推理能力。DeepSeek 在 R1 的訓(xùn)練中也觀察到了模型推理時(shí)“喃喃自語(yǔ)反思錯(cuò)誤的 Aha Moment”(所謂大模型的“頓悟時(shí)刻”)。DeepSeek 的研究人員在其論文中談到,這不僅是大模型的“Aha Moment”,也是研究團(tuán)隊(duì)的“Aha Moment”。
為什么說(shuō)使用 RL 強(qiáng)化學(xué)習(xí)來(lái)做推理計(jì)算,為大模型帶來(lái)了新的范式轉(zhuǎn)換?人類智能的學(xué)習(xí)行為本質(zhì)上分兩種:模仿學(xué)習(xí)和探索學(xué)習(xí)。
預(yù)訓(xùn)練就是大模型的模仿學(xué)習(xí),在 OpenAI o1 和 DeepSeek R1 兩個(gè)模型之前,大模型主要進(jìn)行的是“預(yù)訓(xùn)練”為主的模仿學(xué)習(xí)。喂給大模型什么樣的數(shù)據(jù),大模型才能學(xué)會(huì)什么。沒(méi)教的一概不會(huì),非要回答就會(huì)幻覺(jué)說(shuō)胡話。
強(qiáng)化學(xué)習(xí)就是大模型的探索學(xué)習(xí),這是在 OpenAI o1 和 DeepSeek R1 推理時(shí)主要的學(xué)習(xí)方式。在強(qiáng)化學(xué)習(xí)支持的推理計(jì)算下,大模型會(huì)不斷探索優(yōu)化、遇到錯(cuò)誤會(huì)改正自己。不難理解,如果沒(méi)有探索學(xué)習(xí),僅僅基于預(yù)訓(xùn)練的模仿學(xué)習(xí),大模型遇到復(fù)雜問(wèn)題,很難超過(guò)人類專家。而有了探索學(xué)習(xí),大模型才有可能發(fā)展出遠(yuǎn)超人類智能的水平,比如在 AlphaGo 當(dāng)時(shí)大敗圍棋冠軍李世石時(shí)著名的第 37 手(move 37),背后就是強(qiáng)化學(xué)習(xí)的功勞。
強(qiáng)化學(xué)習(xí)在 AI 領(lǐng)域并不新鮮,但將強(qiáng)化學(xué)習(xí)泛化地應(yīng)用在大模型領(lǐng)域,成為大模型推理計(jì)算的核心,OpenAI o1 和 DeepSeek R1 屬于開(kāi)先河者。大模型領(lǐng)域也因此迎來(lái)了從預(yù)訓(xùn)練到推理計(jì)算的范式轉(zhuǎn)換,而且因?yàn)殚_(kāi)源的引領(lǐng),相信 DeepSeek 有機(jī)會(huì)成為這一范式轉(zhuǎn)換的領(lǐng)導(dǎo)者。
順便提一句,DeepSeek 在工程領(lǐng)域也有很多可圈可點(diǎn)之處,比如從純強(qiáng)化學(xué)習(xí)模型 R0,到使用 SFT、基于 V3 基座模型調(diào)教出來(lái)既有文采又懂推理、文理雙全的 R1;再比如使用 R1 作為教師模型來(lái)蒸餾多個(gè)小模型,使得小模型也具備很高的推理能力。這些都會(huì)加速大模型向推理計(jì)算的范式轉(zhuǎn)換。
2.MLA 和 MoE 等引領(lǐng)大模型架構(gòu)創(chuàng)新
自 GPT 采用 Transformer 架構(gòu)取得成功以來(lái),經(jīng)典 Transformer 架構(gòu)一直是很多大模型的標(biāo)配。但這不意味著 Transformer 是完美無(wú)缺的。DeepSeek 在 Transformer 架構(gòu)的基礎(chǔ)上也做了很多創(chuàng)新,主要包括兩個(gè)方面:(1)多頭潛在注意力即 MLA ;(2)混合專家模型即MoE。
MLA 用于高效推理,源自 DeepSeek V2 的原創(chuàng),其顯著降低了推理顯存的消耗。MLA 主要通過(guò)改造注意力算子壓縮 KV 緩存大小,將每個(gè)查詢 KV 量減少 93.3%,實(shí)現(xiàn)了在同樣容量下存儲(chǔ)更多 KV 緩存,極大提升了推理效率。
MoE 用于高效訓(xùn)練,其由多個(gè)專家模型組成,通過(guò)部分激活給定任務(wù)所需的特定專家,而不是激活整個(gè)神經(jīng)網(wǎng)絡(luò),從而降低計(jì)算消耗。MoE 非 DeepSeek 原創(chuàng),但 DeepSeek 早在 V2 之前的代碼和數(shù)學(xué)模型(DeepSeek-Coder&DeepSeek-Math),就從稠密架構(gòu)轉(zhuǎn)向 MoE 架構(gòu)。V3 模型中更是大膽地使用了高難度的 256 個(gè)路由專家和 1 個(gè)共享專家,并創(chuàng)新的采用冗余專家,來(lái)實(shí)現(xiàn)負(fù)載均衡策略和訓(xùn)練目標(biāo)。
3.“貼身定制”的軟硬協(xié)同工程優(yōu)化
由于眾所周知的“芯片限制”,DeepSeek 在探索推理范式和模型架構(gòu)創(chuàng)新的同時(shí),在工程優(yōu)化方面也絲毫沒(méi)有放松。分別從計(jì)算、存儲(chǔ)、通信等多個(gè)層面實(shí)施了軟硬協(xié)同的工程優(yōu)化策略:比如混合精度訓(xùn)練、跨節(jié)點(diǎn)通信優(yōu)化、雙流水線機(jī)制、DualPipe 算法等。甚至采用 PTX 代碼(比 CUDA 更底層的匯編代碼)進(jìn)行底層優(yōu)化,實(shí)現(xiàn)調(diào)整寄存器分配、線程調(diào)度、Warp 級(jí)別優(yōu)化。
這種圍繞模型需求,對(duì)硬件進(jìn)行“貼身定制”的軟硬協(xié)同工程優(yōu)化,在一些手握充裕 GPU 卡資源的硅谷大廠技術(shù)人員眼里,很像一些“雕蟲(chóng)小技”。但我想說(shuō)的是,技術(shù)界的雕蟲(chóng)小技不可小覷,技術(shù)領(lǐng)域的創(chuàng)新往往是從這些雕蟲(chóng)小技開(kāi)始的。
回顧一下計(jì)算歷史:Hadoop 如何倒逼 EMC、IBM 重構(gòu)存儲(chǔ)架構(gòu)?ARM 精簡(jiǎn)指令集如何用低功耗設(shè)計(jì)顛覆英特爾 x86 帝國(guó)?TCP/IP 協(xié)議棧如何倒逼傳統(tǒng)網(wǎng)絡(luò)設(shè)備革命?記得圖靈獎(jiǎng)得主、RISC 指令發(fā)明人 David Patterson 曾經(jīng)有言“硬件架構(gòu)的創(chuàng)新往往誕生于軟件需求對(duì)硬件的持續(xù)鞭策”。
如果假以時(shí)日,DeepSeek 成為開(kāi)源大模型領(lǐng)域的標(biāo)配后,很難說(shuō)不會(huì)出現(xiàn)用“軟件定義硬件”或者說(shuō)“模型定義硬件”來(lái)倒逼硬件廠商,走出一條顛覆英偉達(dá) CUDA 生態(tài)的道路。
DeepSeek 對(duì)大模型生態(tài)的意義
1.大模型成本降到和搜索相當(dāng),AI 應(yīng)用和智能體迎來(lái)爆發(fā)
DeepSeek 無(wú)疑引爆了大模型的成本之戰(zhàn):(1)自身通過(guò)“模型架構(gòu)創(chuàng)新”和“軟硬件協(xié)同工程優(yōu)化”將大模型訓(xùn)練成本大幅度降低,大約是 Meta 的 1/10,OpenAI 的 1/20;(2)通過(guò)最開(kāi)放的 MIT 開(kāi)源協(xié)議,和將推理大模型蒸餾給開(kāi)源小模型等一系列工程方法,為業(yè)界帶來(lái)低成本的端側(cè)模型商品。
谷歌一次搜索成本大約 0.2 美分(0.002 美元),DeepSeek R1 推理成本百萬(wàn) token 輸出 16 元(2.2 美元), V3 對(duì)話輸出百萬(wàn) token 2 元(這只是 DeepSeek 官網(wǎng)對(duì)外的 API 價(jià)格,如果考慮實(shí)際發(fā)生的推理成本、會(huì)更低)。
作為對(duì)比:OpenAI o1 百萬(wàn) token 輸出 60 美元,是 DeepSeek R1 的 30 倍。如果假設(shè)平均一次推理輸出大約 1000 token(相當(dāng)于大約 500 個(gè)漢字)。那么 DeepSeek 一次推理輸出價(jià)格大約 2.2 美元/1000 次=0.2 美分,對(duì)話輸出大約 0.025 美分。
也就是說(shuō),DeepSeek將大模型的推理輸出降到和谷歌一次搜索成本的價(jià)格相當(dāng),對(duì)話輸出則大約是搜索的 1/10。這是具有指標(biāo)意義的時(shí)刻。
我記得 2023 年 4 月份在硅谷訪問(wèn)時(shí)和 Google 做搜索的朋友聊,他談到他們內(nèi)部從上到下對(duì) ChatGPT 持相當(dāng)觀望的態(tài)度,因?yàn)槿绻凑债?dāng)時(shí)大模型的成本,來(lái)對(duì)比谷歌的搜索成本,谷歌馬上會(huì)從一個(gè)盈利 600 億美金的公司,變成一個(gè)虧損上千億美金的公司。雖然,大家都預(yù)期大模型的成本會(huì)不斷降低,但沒(méi)想到不到 2 年時(shí)間,降低如此之快。
成本一直是技術(shù)革命背后的利器。搜索作為互聯(lián)網(wǎng)的基礎(chǔ)設(shè)施,正是因?yàn)闃O低的成本,才能快速完成對(duì)全球信息的整合,引爆了互聯(lián)網(wǎng)革命。而 DeepSeek 在 2025 年開(kāi)年將大模型成本降到和搜索相當(dāng),加上性價(jià)比極高的端側(cè)模型,大模型將很快成為各種應(yīng)用的基座支撐,GenAI 也將迎來(lái)應(yīng)用爆發(fā)的 tipping point。同時(shí)隨著強(qiáng)化學(xué)習(xí)在推理計(jì)算帶來(lái)的范式轉(zhuǎn)換,依賴推理能力的智能體 AI Agent 也將迎來(lái)加速,2025 年將是大模型應(yīng)用和智能體爆發(fā)的元年。
2.AI 鐵三角迎來(lái)新的變量,AI 產(chǎn)業(yè)版圖有望被重塑
算法、算力、數(shù)據(jù)一直是 AI 的鐵三角。隨著大模型成為 AI 科技樹(shù)的主流,基于 Transformer 架構(gòu)、以預(yù)訓(xùn)練為主的模型算法,及其展現(xiàn)的 Scaling Law 一直在向業(yè)界傳達(dá)一個(gè)信息:算力決定一切,訓(xùn)練數(shù)據(jù)越多、算力越大,模型性能就會(huì)越來(lái)越好,所謂“大力出奇跡“。AI 產(chǎn)業(yè)的競(jìng)爭(zhēng)也變成了“誰(shuí)擁有 GPU 越多、誰(shuí)的 AI 能力越強(qiáng)”的軍備競(jìng)賽。
但 DeepSeek 分別從 “后訓(xùn)練”和“預(yù)訓(xùn)練”兩個(gè)階段對(duì)這樣的唯算力論提出了響亮的質(zhì)疑:
(1)后訓(xùn)練階段——開(kāi)源強(qiáng)化學(xué)習(xí)加速推理計(jì)算的范式轉(zhuǎn)換:隨著強(qiáng)化學(xué)習(xí)成為后訓(xùn)練階段的標(biāo)配,推理計(jì)算將占比越來(lái)越大(相對(duì)預(yù)訓(xùn)練計(jì)算)。適應(yīng)預(yù)訓(xùn)練模式的 GPU 大卡集群計(jì)算(英偉達(dá)的優(yōu)勢(shì))將不再是未來(lái) AI 算力需求的主流,而英偉達(dá)在推理計(jì)算方面的優(yōu)勢(shì)相對(duì)較弱,很多頭部廠商如谷歌 TPU、AWS Inferentia、華為昇騰等專為推理優(yōu)化的芯片,在特定負(fù)載下能效比顯著高于通用 GPU,加上適應(yīng)多元推理場(chǎng)景的分布式計(jì)算、邊緣計(jì)算、端側(cè)計(jì)算,推理算力領(lǐng)域?qū)⒉粫?huì)是英偉達(dá)一家獨(dú)大的局面。
(2)預(yù)訓(xùn)練階段——通過(guò) MoE 和 MLA 等對(duì)經(jīng)典 Transformer 架構(gòu)進(jìn)行的改進(jìn)和迭代:這使得 DeepSeek 使用少于同行 10~20 倍的算力,完成了同等規(guī)模的預(yù)訓(xùn)練。另外,DeepSeek 使用 R1 作為教師模型來(lái)實(shí)現(xiàn)對(duì)小模型的“強(qiáng)化學(xué)習(xí)推理能力”蒸餾的工程實(shí)踐,也會(huì)為很多模型訓(xùn)練帶來(lái)一波紅利。
DeepSeek 從 “后訓(xùn)練”和“預(yù)訓(xùn)練”兩階段對(duì) AI 算法進(jìn)行的創(chuàng)新,為“算法、算力、數(shù)據(jù)”構(gòu)建的 AI 鐵三角帶來(lái)新的變量,有機(jī)會(huì)重新塑造未來(lái) AI 產(chǎn)業(yè)的發(fā)展版圖。
3.開(kāi)源的長(zhǎng)期主義是創(chuàng)新?lián)u籃
最后,說(shuō)說(shuō) DeepSeek 的開(kāi)源戰(zhàn)略。DeepSeek 支持商業(yè)友好的 MIT 許可證(最為寬松的開(kāi)源協(xié)議之一),開(kāi)源模型權(quán)重,沒(méi)有對(duì)下游應(yīng)用的限制(比如合成數(shù)據(jù)、蒸餾等)。論文開(kāi)放的技術(shù)細(xì)節(jié)也很有誠(chéng)意。在全球排名 Top 10 的頭部模型中,DeepSeek 是開(kāi)源程度最高的,比最早扛起開(kāi)源大旗的 Meta 的 LLaMA 還要更 Open。這也是 DeepSeek V3 和 R1 在海內(nèi)外引起眾多權(quán)威專家、大佬認(rèn)可+尊重、甚至贊不絕口的原因。不隱藏、不吹噓,模型、評(píng)測(cè)、原理等都結(jié)結(jié)實(shí)實(shí)擺在那里。
順便說(shuō)一句, DeepSeek 的論文從一開(kāi)始就大大方方地承認(rèn)了其在微觀設(shè)計(jì)上遵循了 LLaMA 的設(shè)計(jì)。相對(duì)國(guó)內(nèi)各種扭扭捏捏、遮遮掩掩的“半開(kāi)源”,以及違背開(kāi)源協(xié)議、使用開(kāi)源實(shí)現(xiàn)自己的閉源,DeepSeek 在模型開(kāi)源方面可以說(shuō)相當(dāng)慷慨、也很敞亮。
DeepSeek 實(shí)際上在第一天就擁抱開(kāi)源,回想起早期閱讀《DeepSeek LLM :用長(zhǎng)期主義來(lái)擴(kuò)展開(kāi)源語(yǔ)言模型》 這篇 DeepSeek 于 2024 年 1 月發(fā)表的論文,對(duì)開(kāi)源的信仰和宣言,讀起來(lái)讓人心生敬意。深層次來(lái)看,DeepSeek 是真正深刻領(lǐng)悟開(kāi)源精神、站在全人類創(chuàng)新的高度、從戰(zhàn)略而非戰(zhàn)術(shù)上擁抱開(kāi)源的。
摘抄 DeepSeek 創(chuàng)始人梁文鋒 2024 年 7 月份接受采訪中的一段話“我們認(rèn)為當(dāng)下最重要的,是參與全球科技創(chuàng)新。長(zhǎng)期以來(lái),中國(guó)企業(yè)習(xí)慣于利用海外的技術(shù)創(chuàng)新,并通過(guò)應(yīng)用層面進(jìn)行商業(yè)化,但這種模式是不可持續(xù)的。我們的目標(biāo)不是快速盈利,而是推動(dòng)技術(shù)前沿的發(fā)展,從根本上促進(jìn)整個(gè)生態(tài)的成長(zhǎng)。開(kāi)源和發(fā)表論文不會(huì)帶來(lái)重大損失。對(duì)于技術(shù)人員來(lái)說(shuō),被同行追隨本身就是一種成就。開(kāi)源不僅僅是商業(yè)策略,更是一種文化?!币源擞^之,2025 年 1 月,DeepSeek V3 和 R1 給全球 AI 界帶來(lái)的震撼,不足為奇。
DeepSeek 的成功點(diǎn)亮了中國(guó)技術(shù)界最純粹、最原始的創(chuàng)新火種,他們會(huì)激勵(lì)一代又一代的中國(guó)技術(shù)人為全世界做出自己獨(dú)特的創(chuàng)新。致敬 DeepSeek。
-
AI
+關(guān)注
關(guān)注
88文章
34869瀏覽量
277622 -
DeepSeek
+關(guān)注
關(guān)注
1文章
792瀏覽量
1587
原文標(biāo)題:李建忠:DeepSeek 關(guān)鍵技術(shù)創(chuàng)新及對(duì) AI 生態(tài)的影響
文章出處:【微信號(hào):AI科技大本營(yíng),微信公眾號(hào):AI科技大本營(yíng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
耐能KNEO Pi開(kāi)發(fā)板的三大技術(shù)革新
光伏電站智能運(yùn)維:技術(shù)革新引領(lǐng)綠色能源新時(shí)代

EVASH芯片公司接入DeepSeek:AI驅(qū)動(dòng)的芯片設(shè)計(jì)革新
FPGA+AI王炸組合如何重塑未來(lái)世界:看看DeepSeek東方神秘力量如何預(yù)測(cè)......
DeepSeek模型引領(lǐng)AI變革,廣電運(yùn)通率先集成應(yīng)用
AI賦能邊緣網(wǎng)關(guān):開(kāi)啟智能時(shí)代的新藍(lán)海
IBM CEO:DeepSeek將加速AI技術(shù)采用
引領(lǐng)少兒 AI 編程教育革新!英荔教育率先接入 DeepSeek
新華三全面接入DeepSeek,引領(lǐng)AI發(fā)展新熱潮
DeepSeek:引領(lǐng)全球AI競(jìng)賽的中國(guó)新范式
蓄電池放電技術(shù)革新:引領(lǐng)能源存儲(chǔ)新時(shí)代
吉利汽車與DeepSeek深度融合,引領(lǐng)智能汽車AI新紀(jì)元
研華AI Agent引領(lǐng)工業(yè)物聯(lián)網(wǎng)應(yīng)用革新
技術(shù)革新:AI與RFID的融合,亞馬遜引領(lǐng)零售行業(yè)變革
全球視野下的PCB線路板:技術(shù)革新引領(lǐng)產(chǎn)業(yè)變革

評(píng)論