經(jīng)濟(jì)觀察網(wǎng) 陳奇杰/文 12月21日,OpenAI的“馬拉松”發(fā)布會(huì)來(lái)到最后一天,OpenAI推出了o1模型的下一代模型o3。
OpenAI的o系列模型更聚焦推理能力,和GPT系列模型并列,是其另一條重要的產(chǎn)品線。其中,o3迷你型(mini)模型預(yù)計(jì)將于2025年1月上線,o3模型將在后續(xù)推出。OpenAI首席執(zhí)行官山姆·奧特曼表示,跳過(guò)o2命名是為了避免和英國(guó)電信運(yùn)營(yíng)商O2沖突。
自12月6日起,OpenAI開啟了一場(chǎng)為期12天的直播發(fā)布會(huì),每個(gè)工作日都會(huì)推出新的產(chǎn)品或功能。不過(guò),每場(chǎng)直播的時(shí)間都僅有10分鐘至25分鐘。
o3模型的AGI評(píng)測(cè)突破人類水平門檻
今年9月,OpenAI發(fā)布了更擅長(zhǎng)處理復(fù)雜推理任務(wù)的o1系列模型,其核心技術(shù)是“思維鏈”,它要求模型在回答復(fù)雜問題前,先生成一個(gè)內(nèi)部的思考過(guò)程,類似于人類在處理復(fù)雜問題時(shí)一步步推理的過(guò)程。通過(guò)這種方式,o1模型能夠?qū)?fù)雜問題分解成更簡(jiǎn)單的部分,并且識(shí)別并糾正錯(cuò)誤。相比o1模型,o3模型的能力進(jìn)步明顯。
在為通用人工智能(AGI)準(zhǔn)備的測(cè)試ARC-AGI中,o3模型在“低思考模式”和“高思考模式”兩種設(shè)置里,分別獲得了75.7和87.5的分?jǐn)?shù)。ARC-AGI是一個(gè)由一系列任務(wù)構(gòu)成的測(cè)試數(shù)據(jù)集,旨在測(cè)試參與者的推理能力和抽象思維。OpenAI的演示人員在直播中稱,o3模型的這一項(xiàng)分?jǐn)?shù)是一個(gè)重要的里程碑,因?yàn)槿祟愒谶@項(xiàng)測(cè)試中達(dá)到的分?jǐn)?shù)閾值為85,這說(shuō)明o3模型的水平更接近AGI。
在OpenAI的直播演示中,o3模型在編程競(jìng)賽平臺(tái)Codeforces上得分為2727,遠(yuǎn)高于o1模型的1891。OpenAI研究高級(jí)副總裁MarkChen在直播中表示,他本人的得分也只有2500,這意味著o3模型的編程能力已經(jīng)能和專業(yè)程序員比肩。
在數(shù)學(xué)領(lǐng)域,o3模型在美國(guó)數(shù)學(xué)邀請(qǐng)賽(AIME 2024)測(cè)試中的準(zhǔn)確率達(dá)到了96.7%,而o1模型的準(zhǔn)確率是83.3%。
OpenAI在直播中還發(fā)布了o3模型的mini版本,mini版本的模型尺寸更小,使用成本會(huì)有所降低。o3 mini設(shè)置了低、中、高三種推理模式,用戶能根據(jù)任務(wù)復(fù)雜度靈活調(diào)整模型的思考時(shí)間。
OpenAI預(yù)計(jì)o3 mini將于1月向所有用戶推出,而完整版o3模型則將在后續(xù)發(fā)布。此外,OpenAI為安全研究人員開放了早期訪問權(quán)限的申請(qǐng),以此表示對(duì)AI安全性的重視。奧特曼也在社交媒體上呼吁,希望安全研究人員考慮申請(qǐng)幫助測(cè)試o3 mini和o3。
OpenAI的12天
在這12天的直播發(fā)布會(huì)里,OpenAI分別在首日和最后一天發(fā)布了o1系列模型的正式版以及o3模型的預(yù)覽版,這說(shuō)明OpenAI仍然更加重視模型能力升級(jí)。
除了首日和最后一天,第3天的發(fā)布也備受關(guān)注。當(dāng)天OpenAI正式推出了AI視頻生成模型Sora。此前,Sora已經(jīng)預(yù)告了近300天時(shí)間。在此期間,國(guó)內(nèi)外已有字節(jié)跳動(dòng)、快手、生數(shù)科技和谷歌等超過(guò)20家公司推出了類似的文生視頻模型及應(yīng)用。
在直播活動(dòng)的第5天和第11天,OpenAI主要展示了他們和蘋果公司的合作,尤其是終端側(cè)的AI應(yīng)用。奧特曼表示,蘋果正在將ChatGPT整合到手機(jī)(iPhone)、平板電腦(iPad)和蘋果系統(tǒng)(iPad)上。
整合的內(nèi)容包括:蘋果的智能語(yǔ)音助手Siri能將復(fù)雜任務(wù)移交給ChatGPT處理;蘋果用戶可以使用ChatGPT撰寫文檔,還能進(jìn)行文檔細(xì)化和總結(jié);iPhone 16手機(jī)的相機(jī)控制功能也進(jìn)行更新,通過(guò)視覺智能讓用戶更深入地了解拍攝對(duì)象,例如利用搜索功能快速識(shí)別眼前物品,或借助ChatGPT深入了解識(shí)別的內(nèi)容;ChatGPT已與蘋果筆記本電腦實(shí)現(xiàn)了應(yīng)用整合,支持與Warp(文件共享應(yīng)用)、Xcode(編輯器)等應(yīng)用聯(lián)動(dòng),并可在語(yǔ)音模式下與蘋果備忘錄等應(yīng)用協(xié)同工作。
余下幾天的直播發(fā)布會(huì),OpenAI主要發(fā)布與聊天機(jī)器人ChatGPT相關(guān)的新功能。
第2天,Open AI發(fā)布了面向企業(yè)用戶的“強(qiáng)化微調(diào)”技術(shù),用戶使用極少的訓(xùn)練數(shù)據(jù)就能在特定領(lǐng)域創(chuàng)建專家模型,預(yù)計(jì)該功能將在明年正式上線。
第4天,OpenAI為ChatGPT推出了全新的并行設(shè)計(jì)界面Canvas。Canvas能讓代碼和文本處理更加高效,并提供了多種實(shí)用的寫作工具。
第6天,OpenAI上線了和人類對(duì)話更加自然的高級(jí)語(yǔ)音模式和實(shí)時(shí)通話、理解屏幕等功能。在演示中,ChatGPT可以通過(guò)攝像頭記住4位直播人員的名字,并能在被打斷談話后再自然地接話。
在第7天和第8天,OpenAI分別推出了Projects In ChatGPT功能以及ChatGPT搜索功能。前者能將ChatGPT的各種功能整合至一處,便于用戶創(chuàng)建并管理各類項(xiàng)目文件夾,后者則是強(qiáng)化了聯(lián)網(wǎng)檢索能力。
第10天,OpenAI拓展了吸引新用戶的渠道,推出了“熱線”的互動(dòng)方式,它允許新用戶通過(guò)電話和通訊程序WhatsApp與ChatGPT互動(dòng)。
此外,OpenAI在第9天的發(fā)布會(huì)上,集中宣布了定價(jià)及價(jià)格調(diào)整的相關(guān)策略。當(dāng)天,OpenAI開放了o1模型的應(yīng)用程序編程接口(API),并宣布了一系列定價(jià):o1模型每分析約75萬(wàn)字收費(fèi)15美元,每生成約75萬(wàn)字收費(fèi)60美元,這一費(fèi)用是其最新非推理模型GPT-4o的3—4倍。
OpenAI也宣布了將GPT-4o音頻模型的API定價(jià)降低60%,降價(jià)后的價(jià)格為每100萬(wàn)輸入Tokens(大模型數(shù)據(jù)的基本單元)收費(fèi)40美元,每100萬(wàn)輸出Tokens收費(fèi)80美元。OpenAI即將正式上線的GPT-4o mini模型API定價(jià)更便宜,每100萬(wàn)輸入和輸出Tokens的價(jià)格分別為10美元和20美元。同時(shí),GPT-4o mini的文本token費(fèi)率也大幅下調(diào),輸入token的起步價(jià)為0.6美元,輸出token起步價(jià)為2.4美元。
除了通過(guò)API推進(jìn)商業(yè)化,OpenAI還在直播活動(dòng)中推出了ChatGPT Pro這項(xiàng)月費(fèi)200美元的新訂閱服務(wù)。ChatGPT Pro主要針對(duì)需要高級(jí)AI能力的專業(yè)人士,允許他們無(wú)限制地使用包括o1在內(nèi)的高級(jí)模型。
例如,所有ChatGPT付費(fèi)用戶均可通過(guò)ChatGPT選擇切換至o1模型,而o1 pro版本則需要ChatGPT Pro用戶才能直接訪問。此外,現(xiàn)階段Sora僅面向ChatGPT Plus和Pro兩類會(huì)員用戶開放,Plus用戶每月享有50條視頻生成配額,Pro用戶則高達(dá)5000條。