先锋影音资源人妻无码_久久国产精品亚色影院_亚洲av中文无码字幕色本_a级国产乱理伦片在线观

雷軍都來挖人,這家公司想把1%的AI天才藏起來

錢玉娟2025-01-14 19:55

經(jīng)濟(jì)觀察網(wǎng) 記者 錢玉娟 AI世界從來不只是巨頭的獨(dú)角戲。來自中國(guó)、成立僅一年半的人工智能創(chuàng)業(yè)公司深度求索(下稱“DeepSeek”),使用2048顆英偉達(dá)H800 GPU,用時(shí)短短兩個(gè)月,訓(xùn)練出了6710億參數(shù)的開源大模型DeepSeek-V3,直接趕超美國(guó)AI巨頭OpenAI投入超百倍的頂級(jí)模型GPT-4o。

“美國(guó)人在休息,中國(guó)人在奮斗。”硅谷AI數(shù)據(jù)標(biāo)注獨(dú)角獸企業(yè)Scale.ai的創(chuàng)始人Alexandr Wang感慨,DeepSeek正以更低的成本、更快的速度和更強(qiáng)大的戰(zhàn)斗力實(shí)現(xiàn)了追趕。

DeepSeek不僅給沉浸于圣誕假期的硅谷AI研究者和開發(fā)者帶去了震撼,這家坐落在杭州的初創(chuàng)公司,還激發(fā)國(guó)內(nèi)不少人前來“朝圣”。

一位接近DeepSeek管理層的人士透露,過去兩周,受DeepSeek-V3全球熱度影響,有來自北京市、浙江省的政府官員約見DeepSeek創(chuàng)始人梁文鋒,這些都是“推不掉的事情”;面對(duì)更多的見面邀約,梁文鋒選擇在“社恐”外衣下主動(dòng)把自己“藏”起來。目前,各類企業(yè)提出與DeepSeek建聯(lián)、交流的訴求后,DeepSeek及其母公司幻方量化的管理層基本是“隱身”處理。

采訪期間,經(jīng)濟(jì)觀察網(wǎng)也嘗試與DeepSeek官方以及其母公司董事總經(jīng)理聯(lián)系,未獲回復(fù)。

上述接近DeepSeek管理層的人士說,梁文鋒把精力投入到模型產(chǎn)品的迭代中,除了潛心研發(fā)外,減少曝光還有另一重考量:要保護(hù)好DeepSeek這支年輕的技術(shù)隊(duì)伍。

要知道,就在DeepSeek-V3發(fā)布第二天,小米科技創(chuàng)始人雷軍親自以千萬年薪挖走DeepSeek羅福莉的消息便沖上熱搜。

一支東方力量

從浙江大學(xué)電子工程系人工智能方向畢業(yè)后,梁文鋒曾進(jìn)入“不對(duì)口”的金融科技領(lǐng)域,從事私募基金、量化投資多年。

“他一直堅(jiān)信AI會(huì)改變世界。”前述接近DeepSeek管理層的人士稱,梁文鋒對(duì)AGI有理想情懷,在國(guó)內(nèi)處于大模型創(chuàng)新風(fēng)口時(shí)分身入局,于2023年7月創(chuàng)立了DeepSeek。

DeepSeek-V3模型發(fā)布即開源。在長(zhǎng)達(dá)53頁(yè)的論文中坦誠(chéng)披露了模型訓(xùn)練的技術(shù)細(xì)節(jié)。

DeepSeek僅花費(fèi)557.6萬美元,就完成了這一多模態(tài)、推理模型的總訓(xùn)練,模型的訓(xùn)練成本是其他全球知名大模型的1/20,甚至1/100。

H800是英偉達(dá)針對(duì)中國(guó)市場(chǎng)特供的低配版GPU,芯片性能受限下,DeepSeek仍實(shí)現(xiàn)了超大規(guī)模參數(shù)的模型訓(xùn)練。OpenAI創(chuàng)始成員Karpathy在社交媒體上點(diǎn)評(píng),DeepSeek-V3讓在有限算力預(yù)算上進(jìn)行模型預(yù)訓(xùn)練這件事變得容易。

DeepSeek的開源模型震動(dòng)硅谷,國(guó)內(nèi)相關(guān)領(lǐng)域人士試圖挖掘這個(gè)AI創(chuàng)業(yè)團(tuán)隊(duì)的神秘班底。

2023年本科畢業(yè)的小陸曾經(jīng)歷6輪面試獲得了DeepSeek人力資源部的入職資格,盡管后來她選擇出國(guó)深造,放棄了入職,但回憶起這家初創(chuàng)公司的面試風(fēng)格,她的感受是,從Passion(熱情)出發(fā)去做一個(gè)不可能完成的任務(wù)。

小陸候選的崗位涉及招聘AI人才,她了解到,這個(gè)團(tuán)隊(duì)最大的特點(diǎn)是年輕化,且在當(dāng)時(shí)就有大批清華大學(xué)、北京大學(xué)的應(yīng)屆生放棄去斯坦福、MIT跟著大牛導(dǎo)師讀博的機(jī)會(huì)選擇加入DeepSeek。

“只招1%的年輕天才,做99%的公司都做不到的事情?!毙£懹X得,DeepSeek在組織形態(tài)上是最像OpenAI的一家中國(guó)AI公司。

但與DeepSeek-V3低成本訓(xùn)練一樣令人驚嘆的是,DeepSeek的員工規(guī)模不及OpenAI的1/5,百人出頭的公司中,算子、推理框架、多模態(tài)等研發(fā)工程師以及深度學(xué)習(xí)方面的研究人員共有約70人,主要在北京分部,其余30多人在杭州總部,多為前端、產(chǎn)品以及商務(wù)人員。

1%的年輕天才

從DeepSeek發(fā)布的論文貢獻(xiàn)者名單看,他們多是清華、北大、北郵、北航等高校計(jì)算機(jī)相關(guān)專業(yè)應(yīng)屆生、博士在讀生,少部分工作經(jīng)驗(yàn)短至兩三年的技術(shù)人員,也是擁有國(guó)內(nèi)教育背景的高材生。

梁文鋒是DeepSeek這支年輕隊(duì)伍中少有的80后,他會(huì)親自帶隊(duì)研發(fā)產(chǎn)品,有時(shí)還會(huì)親自寫代碼,與同事一起攻克AI大模型的技術(shù)難題。

在招人準(zhǔn)則上,梁文鋒與OpenAI的創(chuàng)始人奧特曼有相似之處,不在學(xué)歷、履歷上設(shè)定門檻,更看重一個(gè)人的工程能力。

DeepSeek人力資源部門的一位工作人員在多個(gè)平臺(tái)發(fā)布招聘需求,她會(huì)在簡(jiǎn)單介紹JD(Job Descripion,職位描述)后補(bǔ)充這樣一句:“不希望用JD限制人選在公司發(fā)展的空間?!彼榻B,DeepSeek招募人才著重考察的是人選的素質(zhì)和對(duì)大模型的熱愛。

雖然脫胎于量化私募基金巨頭,但DeepSeek的自我認(rèn)知是一家小公司,這讓它不需要像科技大廠那樣,對(duì)一個(gè)創(chuàng)新想法反反復(fù)復(fù)推演、論證,“搞來搞去,一大幫人重復(fù)做一件事。”上述接近DeepSeek管理層的人士介紹,扁平化管理模式下的DeepSeek,所有的研究人員直接向梁文鋒匯報(bào),創(chuàng)始人給予研究和開發(fā)團(tuán)隊(duì)充分尊重,誰(shuí)有好想法,盡管推進(jìn)去做。

這一點(diǎn)也在前述人力資源工作人員處得到印證,她說,公司在資源配給方面,可以做到萬卡GPU訓(xùn)練集群,無需申請(qǐng),不限使用。

DeepSeek管理風(fēng)格的背后,是梁文鋒對(duì)尋找更多技術(shù)知音的迫切。

DeepSeek-V2模型的關(guān)鍵開發(fā)者之一羅福莉,早在北京大學(xué)研究生階段就在AI領(lǐng)域的頂級(jí)國(guó)際會(huì)議ACL(國(guó)際計(jì)算語(yǔ)言學(xué)協(xié)會(huì)年會(huì))上發(fā)表了8篇論文,其中2篇是一作。截至目前,羅福莉的研究論文在谷歌學(xué)術(shù)上被引用次數(shù)已超2000次。

一位在國(guó)產(chǎn)模型“五虎”之一的AI企業(yè)進(jìn)行產(chǎn)業(yè)生態(tài)研究的人士告訴記者,任何一家模型廠商都處在一個(gè)科研驅(qū)動(dòng)的階段,招聘人才必然看學(xué)術(shù)與工程開發(fā)的能力,看頂刊論文,畢竟招聘進(jìn)來是要搞科研的。

在該人士看來,DeepSeek研究團(tuán)隊(duì)的高光標(biāo)簽并非本土化,而是“研究”。年輕的頂尖人才再配備萬卡資源,這樣的公式讓DeepSeek這家創(chuàng)業(yè)公司走到今天甚至一鳴驚人并不令人意外,反而襯托出行業(yè)的灰暗面。

接受記者采訪時(shí),上述模型廠商的生態(tài)研究人士以某明星AI公司為例說,即便被資本捧上了天,但身處鎂光燈下,很少人去看它成立至今才發(fā)布了幾款模型,“目前已經(jīng)有多家廠商很長(zhǎng)時(shí)間沒有發(fā)布新模型了,他們中的大多數(shù)并非真正重視研究創(chuàng)新這件事”。

創(chuàng)業(yè)公司習(xí)慣借助技術(shù)大牛加入團(tuán)隊(duì)來?yè)伍T面,而像DeepSeek這樣的公司,僅有一部分是像羅福莉這樣從母公司轉(zhuǎn)崗加入DeepSeek,在擴(kuò)充人才梯隊(duì)時(shí),梁文鋒特別要求人力資源方面不去百度、阿里、字節(jié)等大廠挖角技術(shù)大牛。

上述接近DeepSeek管理層的人士理解這種做法,任何一家大廠的技術(shù)大牛,多會(huì)在離開時(shí)帶走一些嫡系,這樣一群帶有大廠思維模式的人進(jìn)入創(chuàng)業(yè)團(tuán)隊(duì),難免會(huì)形成“山頭”,嚴(yán)重時(shí)還會(huì)損害公司的創(chuàng)業(yè)氛圍,影響產(chǎn)品的開發(fā)節(jié)奏。

既不靠母公司砸錢吸納大牛,又想吸引更多熱情投入研究的年輕技術(shù)人,不是一件容易的事。

于是,梁文鋒走到臺(tái)前接受媒體采訪,對(duì)外發(fā)聲有兩個(gè)階段:一是DeepSeek成立初期,他需要告訴所有人,DeepSeek的目標(biāo)是聚焦AGI展開研究、探索;二是DeepSeek-V2發(fā)布時(shí),它點(diǎn)燃了國(guó)內(nèi)大模型價(jià)格戰(zhàn)的導(dǎo)火索,時(shí)值2024年年中,梁文鋒在接受36氪采訪時(shí)稱,DeepSeek無意成為行業(yè)鲇魚,低價(jià)背后是希望算力普惠,以及公司的愿景仍是AGI。

上述接近DeepSeek管理層的人士告訴記者,在團(tuán)隊(duì)招募人才的關(guān)鍵期以及行業(yè)發(fā)展的轉(zhuǎn)折點(diǎn),梁文鋒會(huì)主動(dòng)出來,但他反復(fù)強(qiáng)調(diào)的內(nèi)容都與商業(yè)化目的無關(guān),包括梁文鋒在內(nèi)的管理層擔(dān)憂的是,團(tuán)隊(duì)核心成員被競(jìng)爭(zhēng)者持續(xù)挖角,技術(shù)創(chuàng)造力流失。

“DeepSeek眼下沒有商業(yè)化,也沒有其他新產(chǎn)品發(fā)布,對(duì)手籌謀更多的就是挖人。”上述生態(tài)研究人士了解到,其公司正在通過獵頭挖人。

當(dāng)DeepSeek爆火后,那些出現(xiàn)在技術(shù)論文中的貢獻(xiàn)者們,成為不少?gòu)S商覬覦的“生產(chǎn)力”。

模型廠商的異類

AI大模型在國(guó)內(nèi)爆火后,行業(yè)里流行這樣一個(gè)說法,中國(guó)持有高性能GPU最多的機(jī)構(gòu)不是AI公司,而是幻方量化??ǘ?、不差錢的幻方量化,在背后支撐DeepSeek展開模型研究,路線則是堅(jiān)持開源,并不急于部署商業(yè)化應(yīng)用。

與不少模型廠商既要開發(fā)基礎(chǔ)模型又要AI應(yīng)用變現(xiàn)的邏輯不同,DeepSeek一度被視為模型廠商中的異類。

記者與多位DeepSeek內(nèi)部人士交流后,發(fā)現(xiàn)這家AI公司有很多差異化表現(xiàn):不做產(chǎn)品運(yùn)營(yíng),也不進(jìn)行廣告投流,更沒有在社交媒體向C端用戶推出任何講解Prompt(AI模型提示詞)模板等。

上述接近管理層的人士透露,眼下DeepSeek雖然會(huì)向開發(fā)者賣低價(jià)的API,但像其他友商那樣面向開發(fā)者搞各種項(xiàng)目,它完全沒興趣,幾乎模型相關(guān)的核心研究人員都在專注于產(chǎn)品迭代,以及另外一個(gè) “產(chǎn)品”——技術(shù)研究論文。

騰訊前高級(jí)研究員、北京大學(xué)人工智能方向博士后盧菁,近兩年一直專注于對(duì)國(guó)內(nèi)外知名大模型展開深度研究,將其中的技術(shù)創(chuàng)新點(diǎn)通過社交媒體平臺(tái)傳播給國(guó)內(nèi)外的技術(shù)愛好者們。

盧菁在1月11日晚通過視頻直播,就DeepSeek-V3核心技術(shù)進(jìn)行第二期講解。他提出,DeepSeek并非突然爆火,它其實(shí)承接了上一代模型版本中的很多創(chuàng)新,相關(guān)模型架構(gòu)、算法創(chuàng)新經(jīng)過迭代驗(yàn)證,震動(dòng)行業(yè)也有其必然性。在他看來,DeepSeek更關(guān)鍵的動(dòng)作是在模型工程細(xì)節(jié)上的優(yōu)化,“它把已有的東西,做到極致,成本降到了最低”。

很多人是在DeepSeek-V3面世后才對(duì)這一模型背后的團(tuán)隊(duì)、技術(shù)核心產(chǎn)生巨大的好奇,實(shí)際上,DeepSeek的團(tuán)隊(duì)早就引起盧菁這類業(yè)內(nèi)專家的默默關(guān)注,直到DeepSeek-V2以多頭潛在注意力機(jī)制(MLA)架構(gòu)創(chuàng)新,在硅谷引發(fā)震動(dòng)后,這一公司才真正在AI領(lǐng)域出圈。

在盧菁看來,DeepSeek團(tuán)隊(duì)在做的是一個(gè)精細(xì)活,需要的是一線真正干活的技術(shù)工程師,去將模型推理架構(gòu)、算法等細(xì)節(jié)優(yōu)化,從而實(shí)現(xiàn)低成本訓(xùn)練。

低成本訓(xùn)練并不代表模型效果差。DeepSeek官方指出,DeepSeek-V3模型多項(xiàng)評(píng)測(cè)成績(jī)超越了當(dāng)前全球頂級(jí)的開源模型Llama-3,就連國(guó)外獨(dú)立測(cè)評(píng)機(jī)構(gòu)Artificial Analysis測(cè)試后,也感嘆DeepSeek-V3已經(jīng)超越了迄今為止所有開源模型。

盧菁還在模型論文中看到,DeepSeek-V3在知識(shí)類任務(wù)上表現(xiàn)優(yōu)異,已經(jīng)接近當(dāng)前表現(xiàn)最好的閉源模型,即OpenAI發(fā)布的GPT-4o以及Anthropic公司發(fā)布的Claude-3.5-Sonnet。

陳天楚在浙江大學(xué)計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)實(shí)驗(yàn)室從事大模型相關(guān)研究工作,DeepSeek-V3發(fā)布后,雖然這一模型的參數(shù)超出了開源社區(qū)一般模型愛好者的選擇,但他在相關(guān)測(cè)試中著重對(duì)模型的代碼能力加以考察,發(fā)現(xiàn)DeepSeek-V3已經(jīng)達(dá)到了國(guó)外先進(jìn)模型的水平。

從DeepSeek官網(wǎng)可以看到,DeepSeek-V3模型部署的價(jià)格,與全球其他同級(jí)別的模型價(jià)格相比更為低廉。這一模型因具有性價(jià)比,而被外界賦予了DeepSeek“AI界拼多多”的稱號(hào)。

模型產(chǎn)品看似以價(jià)格取勝,但上述接近管理層的人士強(qiáng)調(diào),DeepSeek至今沒有面向C端的應(yīng)用開發(fā),也未向B端企業(yè)級(jí)發(fā)展商業(yè)化,目前還是在模型探索與完善的階段。

DeepSeek在年輕創(chuàng)造力的驅(qū)動(dòng)下,更強(qiáng)調(diào)專注于研究。上述接近DeepSeek管理層的人士介紹,梁文鋒已經(jīng)以個(gè)人名義投資了一些未來能在DeepSeek的模型基礎(chǔ)上長(zhǎng)起來的下游AI應(yīng)用企業(yè)項(xiàng)目。這可以理解為,梁文鋒在為DeepSeek未來能形成一個(gè)小生態(tài)提早鋪墊,慢慢布局。

TMT新聞部記者
長(zhǎng)期關(guān)注并報(bào)道TMT領(lǐng)域的重大事件,時(shí)刻保持新聞敏感,發(fā)現(xiàn)前沿趨勢(shì)。擅長(zhǎng)企業(yè)模式、人物專訪及行業(yè)深度報(bào)道。
重要新聞線索可聯(lián)系qianyujuan@eeo.com.cn
微信號(hào):EstherQ138279

熱新聞