對話周鴻祎,、方漢：DeepSeek能否改寫AI戰(zhàn)局,？

下載客戶端
獨(dú)家搶先看

2025年01月29日 07:58:21 來自上海

“DeepSeek在基座大模型上做出的突破，是天才級別的,?！?/p>

最近，國產(chǎn)大模型公司深度求索（DeepSeek）引發(fā)的輿論震動,，讓今年春節(jié)成為“最有AI味的年”,。談到DeepSeek旗下標(biāo)志性大模型DeepSeek-R1，多位業(yè)內(nèi)人士向澎湃新聞記者表達(dá)了高度贊賞,。

視覺中國圖

1月28日,，大洋彼岸的人工智能巨頭Open AI CEO山姆·奧特曼(Sam Altman)發(fā)文回應(yīng)DeepSeek帶來的挑戰(zhàn)：“DeepSeek推出的R1令人影響深刻，我們當(dāng)然會推出更好的模型,，有新的競爭對手也令人振奮,。”

國內(nèi)某Top2 AI初創(chuàng)企業(yè)也對記者坦言,，他們感受到了同行帶來的壓力：“后續(xù)我們會加快產(chǎn)品研發(fā)的角度,。”

與之對比的是在產(chǎn)品上的快速迭代：除夕當(dāng)天,，DeepSeek悄無聲息地發(fā)布開源多模態(tài)模型Janus-Pro,。此前1月27日早間，DeepSeek應(yīng)用曾登頂蘋果中國地區(qū)和美國地區(qū)應(yīng)用商店免費(fèi)APP下載排行榜,，在美區(qū)下載榜上超越ChatGPT。

“多模態(tài)考驗(yàn)的是對人類世界和環(huán)境的認(rèn)知,，相信DeepSeek在此刻發(fā)布多模態(tài)大模型,，一定有自己的信心和底氣?！?月28日,，360創(chuàng)始人周鴻祎告訴澎湃新聞記者，“中國大模型技術(shù)復(fù)仇者聯(lián)盟戰(zhàn)隊(duì)里一定有DeepSeek的一份,，因?yàn)檫@家公司和它的創(chuàng)始人非常低調(diào)，他們技術(shù)能力和未來前景被市場嚴(yán)重低估了,。”

“現(xiàn)在硅谷都把DeepSeek叫做來自東方的神秘力量,，中國AI公司的創(chuàng)造力已經(jīng)剎不住車了,?！敝茗櫟t表示,。

AI軍備競賽已進(jìn)入深水期,，曾有觀點(diǎn)認(rèn)為,，在字節(jié),、阿里,、騰訊等大廠包圍下,，AI創(chuàng)業(yè)公司將面臨洗牌，難逃被并購的命運(yùn),，而殺出重圍的卻是似乎“名不見經(jīng)傳”的DeepSeek,。DeepSeek走紅的秘密是什么，為國內(nèi)大模型行業(yè)帶來哪些啟示,？

DeepSeek優(yōu)秀在哪,？

“DeepSeek公司高層明確對商業(yè)化不感興趣,，只想做技術(shù)研究,，這樣的高度一般人達(dá)不到,?！?/p>

有了解DeepSeek人士向記者透露,，自己曾經(jīng)面試過一些AI領(lǐng)域的人才,，最后拒絕了自己的公司,，去了DeepSeek,，理由是他們科研氛圍好，是一個(gè)真正做事的團(tuán)隊(duì),。

“從薪資來看，其實(shí)他們只是業(yè)內(nèi)中流水平,，高，但并不是最高的,?！彼蛴浾咛寡?，“如果說人才密度,，可能還比不上頭部大廠,。并不是大廠的人不聰明,，而是大廠的聰明人花了太多精力在技術(shù)之外,。大廠雖然薪資高,，但是內(nèi)部斗爭也多,，想要真正專心做事,，反而不如這樣的技術(shù)公司純粹,?！?/p>

盡管在外界眼中,，DeepSeek仿佛是一夜爆紅,，但此前早有多項(xiàng)成就引發(fā)行業(yè)關(guān)注,。2024年,，在大模型行業(yè)率先發(fā)起價(jià)格戰(zhàn)的正是DeepSeek,，但并未引起外界關(guān)注,，此后智譜,、字節(jié)跳動等跟進(jìn),，才引發(fā)整個(gè)行業(yè)的降價(jià)潮流,。

視覺中國圖

當(dāng)時(shí)的DeepSeek,，還未真正讓他人看到它的實(shí)力,。2024年,，智譜AI COO張帆在接受采訪時(shí)曾開玩笑說：“我們是主流廠商中第一個(gè)降價(jià)的,?！碑?dāng)時(shí)有人提醒,，首個(gè)降價(jià)的廠商其實(shí)是DeepSeek,，張帆表示：“我說的是主流廠商”,。

DeepSeek最引人矚目的,，是其顯著降低了大模型開發(fā)成本,。1月20日，DeepSeek正式發(fā)布推理模型R1,，其API（編程接口）服務(wù)定價(jià)為每百萬輸入tokens（詞元）僅需1元（緩存命中）/4 元（緩存未命中）,，每百萬輸出tokens為16元,。DeepSeek的定價(jià)約等于Meta旗下Llama 3-70B的七分之一,，GPT-4 Turbo的七十分之一,。

因此，DeepSeek也被戲稱為AI界的“拼多多”,，實(shí)現(xiàn)高效低價(jià)背后的原因是什么,？國內(nèi)某知名AI公司董事長向記者解釋稱,，這主要得益于DS-V3的多項(xiàng)技術(shù)創(chuàng)新,。首先,，DeepSeek采用MoE架構(gòu)（Mixture of Experts，混合專家模型）,，通過將大模型變成多個(gè)稀疏的專家小模型，并通過多個(gè)模型聚合來達(dá)到和傳統(tǒng)大模型相當(dāng)?shù)哪芰?，有效降低了?jì)算成本,。

其次,，DS-V3在訓(xùn)練方法上進(jìn)行了重要?jiǎng)?chuàng)新。采用FP8混合精度訓(xùn)練,，效率是常規(guī)BF16精度的約1.6倍；同時(shí)優(yōu)化了并行流水線,，提升了訓(xùn)練和推理效率,。這些優(yōu)化加上訓(xùn)練的一次成功,，使得V3的訓(xùn)練成本降至約550萬美元。

而在最新發(fā)布的DS-R1中,，DeepSeek采用了創(chuàng)新性的GRPO（組相關(guān)策略優(yōu)化）強(qiáng)化學(xué)習(xí)方法,，無需龐大的人類標(biāo)注數(shù)據(jù)庫,。通過讓模型自主生成并驗(yàn)證結(jié)果的方式,，R1展現(xiàn)出了強(qiáng)大的推理能力,。隨著訓(xùn)練步數(shù)增加,，其思維鏈（Chain-of-Thought,，CoT）的長度不斷增長,，模型甚至開始在推理過程中進(jìn)行自我反思,。

“DeepSeek R1的成功意味著,，如果基礎(chǔ)模型能力夠強(qiáng),，在強(qiáng)化學(xué)習(xí)過程中它就能自己學(xué)會推理。這也是為什么國外AI圈的人看到DS-R1后驚呼AGI竟然離我們?nèi)绱酥脑颍阂驗(yàn)镽1證明了能力足夠強(qiáng)的模型是可以不依靠人類自己進(jìn)化的,，盡管現(xiàn)階段的reward還是需要標(biāo)簽,?！鄙鲜鋈耸勘硎?。

《麻省理工科技評論》分析稱,，DeepSeek R1 采用類似ChatGPT o1使用的“思維鏈”方法，它可以通過逐步處理查詢來解決問題,。這可能是美國對華高端AI芯片出口管制帶來的意外結(jié)果,，迫使中國的初創(chuàng)企業(yè)“優(yōu)先考慮效率”,。

有意思的是，如果問DeepSeek自己R1模型相比OpenAI有哪些特點(diǎn),，DeepSeek的回答是,，創(chuàng)新點(diǎn)可能在“注意力機(jī)制”和“參數(shù)效率”,，R1在處理長文本時(shí)更聚焦關(guān)鍵部分（比如法律合同中的條款），減少計(jì)算量,，類似“讀書時(shí)用熒光筆劃重點(diǎn),，只反復(fù)看關(guān)鍵段落”,。在參數(shù)效率方面,，用類似MoE（混合專家系統(tǒng)）的結(jié)構(gòu)，把模型分成多個(gè)“子專家”,，不同任務(wù)激活不同部分，既節(jié)省算力又提升效果（類似“看病時(shí)分科室掛號,，心臟問題找心內(nèi)科專家,，不用讓全科醫(yī)生從頭學(xué)到尾”）

DeepSeek自我評價(jià)道，“DeepSeek像一家精品店,，在特定領(lǐng)域更專精,；OpenAI像大型超市，啥都有但價(jià)格高,?！?/p>

為什么是DeepSeek？

談到DeepSeek,，離不開創(chuàng)始人梁文鋒,。這位在外人眼中樸素、低調(diào)的“85后”企業(yè)家,，最近也站在了媒體的聚光燈下。

根據(jù)公開報(bào)道，梁文鋒從小就表露在數(shù)學(xué)領(lǐng)域的天賦和興趣,，曾是高考狀元,，在浙大求學(xué)期間就與同學(xué)一起積累市場行情數(shù)據(jù)和探索全自動量化交易。

2008年金融危機(jī)期間,，他帶領(lǐng)團(tuán)隊(duì)使用機(jī)器學(xué)習(xí)等技術(shù)探索全自動量化交易,。2015年創(chuàng)立對沖基金“幻方量化”，2021年資產(chǎn)管理規(guī)模突破千億大關(guān),。2023年創(chuàng)辦深度求索DeepSeek,，專注于通用人工智能（AGI）的突破。

“一件激動人心的事,，或許不能單純用錢衡量,。就像家里買鋼琴，一來買得起,，二來是因?yàn)橛幸蝗杭庇谠谏厦鎻椬鄻非娜?。”在公開采訪中,，梁文鋒本人曾經(jīng)如此談?wù)撍闹械腁GI（通用人工智能）,。

在另一段采訪中，他提到,，中國AI不可能永遠(yuǎn)處在跟隨的位置,，“我們經(jīng)常說中國 AI 和美國有一兩年差距，但真實(shí)的Gap（差距）是原創(chuàng)和模仿之差,。如果這個(gè)不改變,，中國永遠(yuǎn)只能是追隨者，所以有些探索也是逃不掉的,?！?/p>

他認(rèn)為，英偉達(dá)的領(lǐng)先,，不只是一個(gè)公司的努力,，而是整個(gè)西方技術(shù)社區(qū)和產(chǎn)業(yè)共同努力的結(jié)果，“中國AI的發(fā)展,，同樣需要這樣的生態(tài),。很多國產(chǎn)芯片發(fā)展不起來，也是因?yàn)槿狈ε涮椎募夹g(shù)社區(qū),，只有第二手消息,，所以中國必然需要有人站到技術(shù)的前沿?！?/p>

梁文鋒不打無準(zhǔn)備之仗,?；梅搅炕倬W(wǎng)顯示，其在2018年就確立以AI為公司的主要發(fā)展方向,。

2020年開始,，幻方累計(jì)投資超億元、占地面積相當(dāng)于一個(gè)籃球場的AI超級計(jì)算機(jī)“螢火一號”正式投入運(yùn)作,，2021年,，幻方投入十億建設(shè)“螢火二號”，以“任務(wù)級分時(shí)共享”為核心理念,，調(diào)度系統(tǒng)秒級響應(yīng),，平臺配備強(qiáng)大的軟件層支持：高性能算子庫（hfai.nn）、分布式訓(xùn)練通訊框架（hfreduce）,、專為AI開發(fā)而生的大容量高帶寬文件系統(tǒng)（3FS）,，讓AI模型能自如拓展到多節(jié)點(diǎn)之上，進(jìn)行大規(guī)模并行訓(xùn)練,，算力擴(kuò)容翻倍,，集群連續(xù)滿載運(yùn)行，平均占用率達(dá)到96%以上,。

梁文鋒曾在采訪中表示,，最早的一張卡到1萬張卡，這個(gè)過程是逐步發(fā)生的,，而這里面主要是好奇心驅(qū)動,，“對AI能力邊界的好奇”。

“DeepSeek最令美國科技圈震驚的是,，在開源大模型上做到了突破性的領(lǐng)先,?！崩鋈f維CEO方漢向澎湃新聞記者評論稱,，“以往美國在基座大模型上處于絕對優(yōu)勢，例如ChatGPT,，后續(xù)的大模型都是基于ChatGPT進(jìn)行改進(jìn)和優(yōu)化,。此前，在開源大模型領(lǐng)域最領(lǐng)先的是Meta的Llama系列,，但如今DeepSeek徹底超越了Llama,，這意味著，后續(xù)的行業(yè)大模型可能將基于DeepSeek進(jìn)行深度開發(fā),?！?/p>

“中國可能取代美國在基座大模型的統(tǒng)治地位，這是美國十分擔(dān)憂的,?！狈綕h坦言,。

美國AI初創(chuàng)公司Perplexity首席執(zhí)行官在接受采訪時(shí)認(rèn)為，DeepSeek的模型堪稱“瘋狂”,?！斑@些中國團(tuán)隊(duì)推出了一個(gè)瘋狂的模型，API價(jià)格比GPT-4便宜10倍,，甚至比Claude便宜15倍,，速度極快，并且在某些基準(zhǔn)測試中與GPT-4相當(dāng),，甚至更好,。他們總共只花了500萬美元的計(jì)算機(jī)預(yù)算，就做出了如此驚人的模型,，并且免費(fèi)公開了技術(shù)論文,。”

據(jù)美國全國廣播公司(NBC)報(bào)道,，美國總統(tǒng)特朗普當(dāng)?shù)貢r(shí)間1月27日在佛羅里達(dá)州邁阿密舉行的共和黨會議上表示,，中國人工智能初創(chuàng)公司DeepSeek的AI技術(shù)給美國科技企業(yè)敲響“警鐘”，美國公司“需要專注于競爭以贏得勝利”,。

“DeepSeek效應(yīng)”如何發(fā)酵

DeepSeek的成功,，暴擊AI硬件龍頭英偉達(dá)。

當(dāng)?shù)貢r(shí)間1月27日,，英偉達(dá)（Nasdaq：NVDA）股價(jià)暴跌16.86%收于每股118.58美元,，跌至過去10月以來的最低點(diǎn)；總市值2.90萬億美元,，一日蒸發(fā)5900億美元（約合人民幣4.28萬億元）,，創(chuàng)史上最大單日個(gè)股市值蒸發(fā)紀(jì)錄。

英偉達(dá)的暴跌也使得創(chuàng)始人黃仁勛的身家大幅縮水210億美元,。

視覺中國圖

DeepSeek在國際范圍內(nèi)的成功,，也為中國AI初創(chuàng)企業(yè)帶來“DeepSeek效應(yīng)”。

“我對AGI的判斷,，是一場馬拉松,。目前技術(shù)仍然還沒有收斂，算力是一個(gè)重要的影響因素,?！眹鴥?nèi)AI頭部初創(chuàng)企業(yè)、面壁智能CEO李大海告訴記者,。

他介紹,，就像DeepSeek一樣，面壁也在旗下開發(fā)的MiniCPM-S系列引入自研稀疏化方案,，通過將激活函數(shù)替換為ReLU及通過帶漸進(jìn)約束的稀疏感知訓(xùn)練來提升大模型的稀疏性,，能將Llama,、MiniCPM 稀疏度提升至接近 90%，并且也能夠在保持模型原有水平的基礎(chǔ)上,，有效降低模型推理的開銷,。

“DeepSeek的成功，說明中國人工智能企業(yè)已進(jìn)入世界第一梯隊(duì),。盡管我們要承認(rèn)中美在人工智能上確實(shí)有原創(chuàng)性的差距,，但是R1的發(fā)布將會很大程度影響這個(gè)行業(yè)的發(fā)展，2025年中國在AI領(lǐng)域的創(chuàng)新相當(dāng)值得期待,?！辟Y深A(yù)I從業(yè)者、獵豹移動董事長兼CEO傅盛表示,。

而方漢認(rèn)為,，要談中國在AI上的能力完全趕超美國，還為時(shí)尚早,，但是DeepSeek的表現(xiàn),，說明中國AI在發(fā)展空間上確實(shí)為人矚目。中國擁有最龐大的AI工程師隊(duì)伍和最多的AI論文數(shù)量,，“在AI領(lǐng)域,，中國和美國的優(yōu)勢相比其他國家是巨大的?！?/p>

“如果要雙方真正平起平坐地競爭,，還是需要解決算力卡脖子問題?！狈綕h坦言,，“但是我預(yù)計(jì)將在2-3年內(nèi)徹底解決這個(gè)問題。相信在不久之后,，能看到兩個(gè)國家真正實(shí)現(xiàn)你追我趕,、公平競爭?！?/p>

“特別聲明：以上作品內(nèi)容(包括在內(nèi)的視頻,、圖片或音頻)為鳳凰網(wǎng)旗下自媒體平臺“大風(fēng)號”用戶上傳并發(fā)布,，本平臺僅提供信息存儲空間服務(wù),。

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

對話周鴻祎,、方漢：DeepSeek能否改寫AI戰(zhàn)局,？

親愛的鳳凰網(wǎng)用戶:

第三方瀏覽器推薦: