OpenAI的12天：更接近AGI的o3模型為發(fā)布會(huì)劃上句號(hào)

陳奇杰2024-12-21 18:07

經(jīng)濟(jì)觀察網(wǎng) 陳奇杰/文 12月21日，OpenAI的“馬拉松”發(fā)布會(huì)來(lái)到最后一天，OpenAI推出了o1模型的下一代模型o3。

OpenAI的o系列模型更聚焦推理能力，和GPT系列模型并列，是其另一條重要的產(chǎn)品線。其中，o3迷你型（mini）模型預(yù)計(jì)將于2025年1月上線，o3模型將在后續(xù)推出。OpenAI首席執(zhí)行官山姆·奧特曼表示，跳過(guò)o2命名是為了避免和英國(guó)電信運(yùn)營(yíng)商O2沖突。

自12月6日起，OpenAI開啟了一場(chǎng)為期12天的直播發(fā)布會(huì)，每個(gè)工作日都會(huì)推出新的產(chǎn)品或功能。不過(guò)，每場(chǎng)直播的時(shí)間都僅有10分鐘至25分鐘。

o3模型的AGI評(píng)測(cè)突破人類水平門檻

今年9月，OpenAI發(fā)布了更擅長(zhǎng)處理復(fù)雜推理任務(wù)的o1系列模型，其核心技術(shù)是“思維鏈”，它要求模型在回答復(fù)雜問題前，先生成一個(gè)內(nèi)部的思考過(guò)程，類似于人類在處理復(fù)雜問題時(shí)一步步推理的過(guò)程。通過(guò)這種方式，o1模型能夠?qū)?fù)雜問題分解成更簡(jiǎn)單的部分，并且識(shí)別并糾正錯(cuò)誤。相比o1模型，o3模型的能力進(jìn)步明顯。

在為通用人工智能（AGI）準(zhǔn)備的測(cè)試ARC-AGI中，o3模型在“低思考模式”和“高思考模式”兩種設(shè)置里，分別獲得了75.7和87.5的分?jǐn)?shù)。ARC-AGI是一個(gè)由一系列任務(wù)構(gòu)成的測(cè)試數(shù)據(jù)集，旨在測(cè)試參與者的推理能力和抽象思維。OpenAI的演示人員在直播中稱，o3模型的這一項(xiàng)分?jǐn)?shù)是一個(gè)重要的里程碑，因?yàn)槿祟愒谶@項(xiàng)測(cè)試中達(dá)到的分?jǐn)?shù)閾值為85，這說(shuō)明o3模型的水平更接近AGI。

在OpenAI的直播演示中，o3模型在編程競(jìng)賽平臺(tái)Codeforces上得分為2727，遠(yuǎn)高于o1模型的1891。OpenAI研究高級(jí)副總裁MarkChen在直播中表示，他本人的得分也只有2500，這意味著o3模型的編程能力已經(jīng)能和專業(yè)程序員比肩。

在數(shù)學(xué)領(lǐng)域，o3模型在美國(guó)數(shù)學(xué)邀請(qǐng)賽（AIME 2024）測(cè)試中的準(zhǔn)確率達(dá)到了96.7%，而o1模型的準(zhǔn)確率是83.3%。

OpenAI在直播中還發(fā)布了o3模型的mini版本，mini版本的模型尺寸更小，使用成本會(huì)有所降低。o3 mini設(shè)置了低、中、高三種推理模式，用戶能根據(jù)任務(wù)復(fù)雜度靈活調(diào)整模型的思考時(shí)間。

OpenAI預(yù)計(jì)o3 mini將于1月向所有用戶推出，而完整版o3模型則將在后續(xù)發(fā)布。此外，OpenAI為安全研究人員開放了早期訪問權(quán)限的申請(qǐng)，以此表示對(duì)AI安全性的重視。奧特曼也在社交媒體上呼吁，希望安全研究人員考慮申請(qǐng)幫助測(cè)試o3 mini和o3。

OpenAI的12天

在這12天的直播發(fā)布會(huì)里，OpenAI分別在首日和最后一天發(fā)布了o1系列模型的正式版以及o3模型的預(yù)覽版，這說(shuō)明OpenAI仍然更加重視模型能力升級(jí)。

除了首日和最后一天，第3天的發(fā)布也備受關(guān)注。當(dāng)天OpenAI正式推出了AI視頻生成模型Sora。此前，Sora已經(jīng)預(yù)告了近300天時(shí)間。在此期間，國(guó)內(nèi)外已有字節(jié)跳動(dòng)、快手、生數(shù)科技和谷歌等超過(guò)20家公司推出了類似的文生視頻模型及應(yīng)用。

在直播活動(dòng)的第5天和第11天，OpenAI主要展示了他們和蘋果公司的合作，尤其是終端側(cè)的AI應(yīng)用。奧特曼表示，蘋果正在將ChatGPT整合到手機(jī)（iPhone）、平板電腦（iPad）和蘋果系統(tǒng)（iPad）上。

整合的內(nèi)容包括：蘋果的智能語(yǔ)音助手Siri能將復(fù)雜任務(wù)移交給ChatGPT處理；蘋果用戶可以使用ChatGPT撰寫文檔，還能進(jìn)行文檔細(xì)化和總結(jié)；iPhone 16手機(jī)的相機(jī)控制功能也進(jìn)行更新，通過(guò)視覺智能讓用戶更深入地了解拍攝對(duì)象，例如利用搜索功能快速識(shí)別眼前物品，或借助ChatGPT深入了解識(shí)別的內(nèi)容；ChatGPT已與蘋果筆記本電腦實(shí)現(xiàn)了應(yīng)用整合，支持與Warp（文件共享應(yīng)用）、Xcode（編輯器）等應(yīng)用聯(lián)動(dòng)，并可在語(yǔ)音模式下與蘋果備忘錄等應(yīng)用協(xié)同工作。

余下幾天的直播發(fā)布會(huì)，OpenAI主要發(fā)布與聊天機(jī)器人ChatGPT相關(guān)的新功能。

第2天，Open AI發(fā)布了面向企業(yè)用戶的“強(qiáng)化微調(diào)”技術(shù)，用戶使用極少的訓(xùn)練數(shù)據(jù)就能在特定領(lǐng)域創(chuàng)建專家模型，預(yù)計(jì)該功能將在明年正式上線。

第4天，OpenAI為ChatGPT推出了全新的并行設(shè)計(jì)界面Canvas。Canvas能讓代碼和文本處理更加高效，并提供了多種實(shí)用的寫作工具。

第6天，OpenAI上線了和人類對(duì)話更加自然的高級(jí)語(yǔ)音模式和實(shí)時(shí)通話、理解屏幕等功能。在演示中，ChatGPT可以通過(guò)攝像頭記住4位直播人員的名字，并能在被打斷談話后再自然地接話。

在第7天和第8天，OpenAI分別推出了Projects In ChatGPT功能以及ChatGPT搜索功能。前者能將ChatGPT的各種功能整合至一處，便于用戶創(chuàng)建并管理各類項(xiàng)目文件夾，后者則是強(qiáng)化了聯(lián)網(wǎng)檢索能力。

第10天，OpenAI拓展了吸引新用戶的渠道，推出了“熱線”的互動(dòng)方式，它允許新用戶通過(guò)電話和通訊程序WhatsApp與ChatGPT互動(dòng)。

此外，OpenAI在第9天的發(fā)布會(huì)上，集中宣布了定價(jià)及價(jià)格調(diào)整的相關(guān)策略。當(dāng)天，OpenAI開放了o1模型的應(yīng)用程序編程接口（API），并宣布了一系列定價(jià)：o1模型每分析約75萬(wàn)字收費(fèi)15美元，每生成約75萬(wàn)字收費(fèi)60美元，這一費(fèi)用是其最新非推理模型GPT-4o的3—4倍。

OpenAI也宣布了將GPT-4o音頻模型的API定價(jià)降低60%，降價(jià)后的價(jià)格為每100萬(wàn)輸入Tokens（大模型數(shù)據(jù)的基本單元）收費(fèi)40美元，每100萬(wàn)輸出Tokens收費(fèi)80美元。OpenAI即將正式上線的GPT-4o mini模型API定價(jià)更便宜，每100萬(wàn)輸入和輸出Tokens的價(jià)格分別為10美元和20美元。同時(shí)，GPT-4o mini的文本token費(fèi)率也大幅下調(diào)，輸入token的起步價(jià)為0.6美元，輸出token起步價(jià)為2.4美元。

除了通過(guò)API推進(jìn)商業(yè)化，OpenAI還在直播活動(dòng)中推出了ChatGPT Pro這項(xiàng)月費(fèi)200美元的新訂閱服務(wù)。ChatGPT Pro主要針對(duì)需要高級(jí)AI能力的專業(yè)人士，允許他們無(wú)限制地使用包括o1在內(nèi)的高級(jí)模型。

例如，所有ChatGPT付費(fèi)用戶均可通過(guò)ChatGPT選擇切換至o1模型，而o1 pro版本則需要ChatGPT Pro用戶才能直接訪問。此外，現(xiàn)階段Sora僅面向ChatGPT Plus和Pro兩類會(huì)員用戶開放，Plus用戶每月享有50條視頻生成配額，Pro用戶則高達(dá)5000條。