雷軍都來挖人，這家公司想把1%的AI天才藏起來

錢玉娟2025-01-14 19:55

經(jīng)濟(jì)觀察網(wǎng) 記者錢玉娟 AI世界從來不只是巨頭的獨(dú)角戲。來自中國(guó)、成立僅一年半的人工智能創(chuàng)業(yè)公司深度求索（下稱“DeepSeek”），使用2048顆英偉達(dá)H800 GPU，用時(shí)短短兩個(gè)月，訓(xùn)練出了6710億參數(shù)的開源大模型DeepSeek-V3，直接趕超美國(guó)AI巨頭OpenAI投入超百倍的頂級(jí)模型GPT-4o。

“美國(guó)人在休息，中國(guó)人在奮斗。”硅谷AI數(shù)據(jù)標(biāo)注獨(dú)角獸企業(yè)Scale.ai的創(chuàng)始人Alexandr Wang感慨，DeepSeek正以更低的成本、更快的速度和更強(qiáng)大的戰(zhàn)斗力實(shí)現(xiàn)了追趕。

DeepSeek不僅給沉浸于圣誕假期的硅谷AI研究者和開發(fā)者帶去了震撼，這家坐落在杭州的初創(chuàng)公司，還激發(fā)國(guó)內(nèi)不少人前來“朝圣”。

一位接近DeepSeek管理層的人士透露，過去兩周，受DeepSeek-V3全球熱度影響，有來自北京市、浙江省的政府官員約見DeepSeek創(chuàng)始人梁文鋒，這些都是“推不掉的事情”；面對(duì)更多的見面邀約，梁文鋒選擇在“社恐”外衣下主動(dòng)把自己“藏”起來。目前，各類企業(yè)提出與DeepSeek建聯(lián)、交流的訴求后，DeepSeek及其母公司幻方量化的管理層基本是“隱身”處理。

采訪期間，經(jīng)濟(jì)觀察網(wǎng)也嘗試與DeepSeek官方以及其母公司董事總經(jīng)理聯(lián)系，未獲回復(fù)。

上述接近DeepSeek管理層的人士說，梁文鋒把精力投入到模型產(chǎn)品的迭代中，除了潛心研發(fā)外，減少曝光還有另一重考量：要保護(hù)好DeepSeek這支年輕的技術(shù)隊(duì)伍。

要知道，就在DeepSeek-V3發(fā)布第二天，小米科技創(chuàng)始人雷軍親自以千萬年薪挖走DeepSeek羅福莉的消息便沖上熱搜。

一支東方力量

從浙江大學(xué)電子工程系人工智能方向畢業(yè)后，梁文鋒曾進(jìn)入“不對(duì)口”的金融科技領(lǐng)域，從事私募基金、量化投資多年。

“他一直堅(jiān)信AI會(huì)改變世界。”前述接近DeepSeek管理層的人士稱，梁文鋒對(duì)AGI有理想情懷，在國(guó)內(nèi)處于大模型創(chuàng)新風(fēng)口時(shí)分身入局，于2023年7月創(chuàng)立了DeepSeek。

DeepSeek-V3模型發(fā)布即開源。在長(zhǎng)達(dá)53頁(yè)的論文中坦誠(chéng)披露了模型訓(xùn)練的技術(shù)細(xì)節(jié)。

DeepSeek僅花費(fèi)557.6萬美元，就完成了這一多模態(tài)、推理模型的總訓(xùn)練，模型的訓(xùn)練成本是其他全球知名大模型的1/20，甚至1/100。

H800是英偉達(dá)針對(duì)中國(guó)市場(chǎng)特供的低配版GPU，芯片性能受限下，DeepSeek仍實(shí)現(xiàn)了超大規(guī)模參數(shù)的模型訓(xùn)練。OpenAI創(chuàng)始成員Karpathy在社交媒體上點(diǎn)評(píng)，DeepSeek-V3讓在有限算力預(yù)算上進(jìn)行模型預(yù)訓(xùn)練這件事變得容易。

DeepSeek的開源模型震動(dòng)硅谷，國(guó)內(nèi)相關(guān)領(lǐng)域人士試圖挖掘這個(gè)AI創(chuàng)業(yè)團(tuán)隊(duì)的神秘班底。

2023年本科畢業(yè)的小陸曾經(jīng)歷6輪面試獲得了DeepSeek人力資源部的入職資格，盡管后來她選擇出國(guó)深造，放棄了入職，但回憶起這家初創(chuàng)公司的面試風(fēng)格，她的感受是，從Passion（熱情）出發(fā)去做一個(gè)不可能完成的任務(wù)。

小陸候選的崗位涉及招聘AI人才，她了解到，這個(gè)團(tuán)隊(duì)最大的特點(diǎn)是年輕化，且在當(dāng)時(shí)就有大批清華大學(xué)、北京大學(xué)的應(yīng)屆生放棄去斯坦福、MIT跟著大牛導(dǎo)師讀博的機(jī)會(huì)選擇加入DeepSeek。

“只招1%的年輕天才，做99%的公司都做不到的事情?！毙￡懹X得，DeepSeek在組織形態(tài)上是最像OpenAI的一家中國(guó)AI公司。

但與DeepSeek-V3低成本訓(xùn)練一樣令人驚嘆的是，DeepSeek的員工規(guī)模不及OpenAI的1/5，百人出頭的公司中，算子、推理框架、多模態(tài)等研發(fā)工程師以及深度學(xué)習(xí)方面的研究人員共有約70人，主要在北京分部，其余30多人在杭州總部，多為前端、產(chǎn)品以及商務(wù)人員。

1%的年輕天才

從DeepSeek發(fā)布的論文貢獻(xiàn)者名單看，他們多是清華、北大、北郵、北航等高校計(jì)算機(jī)相關(guān)專業(yè)應(yīng)屆生、博士在讀生，少部分工作經(jīng)驗(yàn)短至兩三年的技術(shù)人員，也是擁有國(guó)內(nèi)教育背景的高材生。

梁文鋒是DeepSeek這支年輕隊(duì)伍中少有的80后，他會(huì)親自帶隊(duì)研發(fā)產(chǎn)品，有時(shí)還會(huì)親自寫代碼，與同事一起攻克AI大模型的技術(shù)難題。

在招人準(zhǔn)則上，梁文鋒與OpenAI的創(chuàng)始人奧特曼有相似之處，不在學(xué)歷、履歷上設(shè)定門檻，更看重一個(gè)人的工程能力。

DeepSeek人力資源部門的一位工作人員在多個(gè)平臺(tái)發(fā)布招聘需求，她會(huì)在簡(jiǎn)單介紹JD（Job Descripion，職位描述）后補(bǔ)充這樣一句：“不希望用JD限制人選在公司發(fā)展的空間?！彼榻B，DeepSeek招募人才著重考察的是人選的素質(zhì)和對(duì)大模型的熱愛。

雖然脫胎于量化私募基金巨頭，但DeepSeek的自我認(rèn)知是一家小公司，這讓它不需要像科技大廠那樣，對(duì)一個(gè)創(chuàng)新想法反反復(fù)復(fù)推演、論證，“搞來搞去，一大幫人重復(fù)做一件事。”上述接近DeepSeek管理層的人士介紹，扁平化管理模式下的DeepSeek，所有的研究人員直接向梁文鋒匯報(bào)，創(chuàng)始人給予研究和開發(fā)團(tuán)隊(duì)充分尊重，誰(shuí)有好想法，盡管推進(jìn)去做。

這一點(diǎn)也在前述人力資源工作人員處得到印證，她說，公司在資源配給方面，可以做到萬卡GPU訓(xùn)練集群，無需申請(qǐng)，不限使用。

DeepSeek管理風(fēng)格的背后，是梁文鋒對(duì)尋找更多技術(shù)知音的迫切。

DeepSeek-V2模型的關(guān)鍵開發(fā)者之一羅福莉，早在北京大學(xué)研究生階段就在AI領(lǐng)域的頂級(jí)國(guó)際會(huì)議ACL（國(guó)際計(jì)算語(yǔ)言學(xué)協(xié)會(huì)年會(huì)）上發(fā)表了8篇論文，其中2篇是一作。截至目前，羅福莉的研究論文在谷歌學(xué)術(shù)上被引用次數(shù)已超2000次。

一位在國(guó)產(chǎn)模型“五虎”之一的AI企業(yè)進(jìn)行產(chǎn)業(yè)生態(tài)研究的人士告訴記者，任何一家模型廠商都處在一個(gè)科研驅(qū)動(dòng)的階段，招聘人才必然看學(xué)術(shù)與工程開發(fā)的能力，看頂刊論文，畢竟招聘進(jìn)來是要搞科研的。

在該人士看來，DeepSeek研究團(tuán)隊(duì)的高光標(biāo)簽并非本土化，而是“研究”。年輕的頂尖人才再配備萬卡資源，這樣的公式讓DeepSeek這家創(chuàng)業(yè)公司走到今天甚至一鳴驚人并不令人意外，反而襯托出行業(yè)的灰暗面。

接受記者采訪時(shí)，上述模型廠商的生態(tài)研究人士以某明星AI公司為例說，即便被資本捧上了天，但身處鎂光燈下，很少人去看它成立至今才發(fā)布了幾款模型，“目前已經(jīng)有多家廠商很長(zhǎng)時(shí)間沒有發(fā)布新模型了，他們中的大多數(shù)并非真正重視研究創(chuàng)新這件事”。

創(chuàng)業(yè)公司習(xí)慣借助技術(shù)大牛加入團(tuán)隊(duì)來?yè)伍T面，而像DeepSeek這樣的公司，僅有一部分是像羅福莉這樣從母公司轉(zhuǎn)崗加入DeepSeek，在擴(kuò)充人才梯隊(duì)時(shí)，梁文鋒特別要求人力資源方面不去百度、阿里、字節(jié)等大廠挖角技術(shù)大牛。

上述接近DeepSeek管理層的人士理解這種做法，任何一家大廠的技術(shù)大牛，多會(huì)在離開時(shí)帶走一些嫡系，這樣一群帶有大廠思維模式的人進(jìn)入創(chuàng)業(yè)團(tuán)隊(duì)，難免會(huì)形成“山頭”，嚴(yán)重時(shí)還會(huì)損害公司的創(chuàng)業(yè)氛圍，影響產(chǎn)品的開發(fā)節(jié)奏。

既不靠母公司砸錢吸納大牛，又想吸引更多熱情投入研究的年輕技術(shù)人，不是一件容易的事。

于是，梁文鋒走到臺(tái)前接受媒體采訪，對(duì)外發(fā)聲有兩個(gè)階段：一是DeepSeek成立初期，他需要告訴所有人，DeepSeek的目標(biāo)是聚焦AGI展開研究、探索；二是DeepSeek-V2發(fā)布時(shí)，它點(diǎn)燃了國(guó)內(nèi)大模型價(jià)格戰(zhàn)的導(dǎo)火索，時(shí)值2024年年中，梁文鋒在接受36氪采訪時(shí)稱，DeepSeek無意成為行業(yè)鲇魚，低價(jià)背后是希望算力普惠，以及公司的愿景仍是AGI。

上述接近DeepSeek管理層的人士告訴記者，在團(tuán)隊(duì)招募人才的關(guān)鍵期以及行業(yè)發(fā)展的轉(zhuǎn)折點(diǎn)，梁文鋒會(huì)主動(dòng)出來，但他反復(fù)強(qiáng)調(diào)的內(nèi)容都與商業(yè)化目的無關(guān)，包括梁文鋒在內(nèi)的管理層擔(dān)憂的是，團(tuán)隊(duì)核心成員被競(jìng)爭(zhēng)者持續(xù)挖角，技術(shù)創(chuàng)造力流失。

“DeepSeek眼下沒有商業(yè)化，也沒有其他新產(chǎn)品發(fā)布，對(duì)手籌謀更多的就是挖人。”上述生態(tài)研究人士了解到，其公司正在通過獵頭挖人。

當(dāng)DeepSeek爆火后，那些出現(xiàn)在技術(shù)論文中的貢獻(xiàn)者們，成為不少?gòu)S商覬覦的“生產(chǎn)力”。

模型廠商的異類

AI大模型在國(guó)內(nèi)爆火后，行業(yè)里流行這樣一個(gè)說法，中國(guó)持有高性能GPU最多的機(jī)構(gòu)不是AI公司，而是幻方量化?？ǘ?、不差錢的幻方量化，在背后支撐DeepSeek展開模型研究，路線則是堅(jiān)持開源，并不急于部署商業(yè)化應(yīng)用。

與不少模型廠商既要開發(fā)基礎(chǔ)模型又要AI應(yīng)用變現(xiàn)的邏輯不同，DeepSeek一度被視為模型廠商中的異類。

記者與多位DeepSeek內(nèi)部人士交流后，發(fā)現(xiàn)這家AI公司有很多差異化表現(xiàn)：不做產(chǎn)品運(yùn)營(yíng)，也不進(jìn)行廣告投流，更沒有在社交媒體向C端用戶推出任何講解Prompt（AI模型提示詞）模板等。

上述接近管理層的人士透露，眼下DeepSeek雖然會(huì)向開發(fā)者賣低價(jià)的API，但像其他友商那樣面向開發(fā)者搞各種項(xiàng)目，它完全沒興趣，幾乎模型相關(guān)的核心研究人員都在專注于產(chǎn)品迭代，以及另外一個(gè) “產(chǎn)品”——技術(shù)研究論文。

騰訊前高級(jí)研究員、北京大學(xué)人工智能方向博士后盧菁，近兩年一直專注于對(duì)國(guó)內(nèi)外知名大模型展開深度研究，將其中的技術(shù)創(chuàng)新點(diǎn)通過社交媒體平臺(tái)傳播給國(guó)內(nèi)外的技術(shù)愛好者們。

盧菁在1月11日晚通過視頻直播，就DeepSeek-V3核心技術(shù)進(jìn)行第二期講解。他提出，DeepSeek并非突然爆火，它其實(shí)承接了上一代模型版本中的很多創(chuàng)新，相關(guān)模型架構(gòu)、算法創(chuàng)新經(jīng)過迭代驗(yàn)證，震動(dòng)行業(yè)也有其必然性。在他看來，DeepSeek更關(guān)鍵的動(dòng)作是在模型工程細(xì)節(jié)上的優(yōu)化，“它把已有的東西，做到極致，成本降到了最低”。

很多人是在DeepSeek-V3面世后才對(duì)這一模型背后的團(tuán)隊(duì)、技術(shù)核心產(chǎn)生巨大的好奇，實(shí)際上，DeepSeek的團(tuán)隊(duì)早就引起盧菁這類業(yè)內(nèi)專家的默默關(guān)注，直到DeepSeek-V2以多頭潛在注意力機(jī)制（MLA）架構(gòu)創(chuàng)新，在硅谷引發(fā)震動(dòng)后，這一公司才真正在AI領(lǐng)域出圈。

在盧菁看來，DeepSeek團(tuán)隊(duì)在做的是一個(gè)精細(xì)活，需要的是一線真正干活的技術(shù)工程師，去將模型推理架構(gòu)、算法等細(xì)節(jié)優(yōu)化，從而實(shí)現(xiàn)低成本訓(xùn)練。

低成本訓(xùn)練并不代表模型效果差。DeepSeek官方指出，DeepSeek-V3模型多項(xiàng)評(píng)測(cè)成績(jī)超越了當(dāng)前全球頂級(jí)的開源模型Llama-3，就連國(guó)外獨(dú)立測(cè)評(píng)機(jī)構(gòu)Artificial Analysis測(cè)試后，也感嘆DeepSeek-V3已經(jīng)超越了迄今為止所有開源模型。

盧菁還在模型論文中看到，DeepSeek-V3在知識(shí)類任務(wù)上表現(xiàn)優(yōu)異，已經(jīng)接近當(dāng)前表現(xiàn)最好的閉源模型，即OpenAI發(fā)布的GPT-4o以及Anthropic公司發(fā)布的Claude-3.5-Sonnet。

陳天楚在浙江大學(xué)計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)實(shí)驗(yàn)室從事大模型相關(guān)研究工作，DeepSeek-V3發(fā)布后，雖然這一模型的參數(shù)超出了開源社區(qū)一般模型愛好者的選擇，但他在相關(guān)測(cè)試中著重對(duì)模型的代碼能力加以考察，發(fā)現(xiàn)DeepSeek-V3已經(jīng)達(dá)到了國(guó)外先進(jìn)模型的水平。

從DeepSeek官網(wǎng)可以看到，DeepSeek-V3模型部署的價(jià)格，與全球其他同級(jí)別的模型價(jià)格相比更為低廉。這一模型因具有性價(jià)比，而被外界賦予了DeepSeek“AI界拼多多”的稱號(hào)。

模型產(chǎn)品看似以價(jià)格取勝，但上述接近管理層的人士強(qiáng)調(diào)，DeepSeek至今沒有面向C端的應(yīng)用開發(fā)，也未向B端企業(yè)級(jí)發(fā)展商業(yè)化，目前還是在模型探索與完善的階段。

DeepSeek在年輕創(chuàng)造力的驅(qū)動(dòng)下，更強(qiáng)調(diào)專注于研究。上述接近DeepSeek管理層的人士介紹，梁文鋒已經(jīng)以個(gè)人名義投資了一些未來能在DeepSeek的模型基礎(chǔ)上長(zhǎng)起來的下游AI應(yīng)用企業(yè)項(xiàng)目。這可以理解為，梁文鋒在為DeepSeek未來能形成一個(gè)小生態(tài)提早鋪墊，慢慢布局。

錢玉娟經(jīng)濟(jì)觀察報(bào)記者

TMT新聞部記者
長(zhǎng)期關(guān)注并報(bào)道TMT領(lǐng)域的重大事件，時(shí)刻保持新聞敏感，發(fā)現(xiàn)前沿趨勢(shì)。擅長(zhǎng)企業(yè)模式、人物專訪及行業(yè)深度報(bào)道。
重要新聞線索可聯(lián)系qianyujuan@eeo.com.cn
微信號(hào)：EstherQ138279