首頁 > 科技要聞 > 科技> 正文

o3來了!編程躋身人類全球前200,破解陶哲軒說難的數(shù)學(xué)測試,北大校友任泓宇現(xiàn)身直播間

量子位 整合編輯:太平洋科技 發(fā)布于:2024-12-24 17:34

OpenAI公布下一代模型,o1之后直接o3!

“雙12”直播活動最后一天,終于來了個大的,奧特曼本人也再次現(xiàn)身直播間。

o3相比o1最突出的成績,一是頂尖程序員競賽CodeForces分?jǐn)?shù)超過2700,人類超過這個分?jǐn)?shù)的目前只有不到200個。

二是在為AGI準(zhǔn)備的測試ARC-AGI上分?jǐn)?shù)從32%躍升到了75.7%、87.5%。

為什么有兩個成績呢?

因為o3支持低思考程度高思考程度兩種設(shè)置,高思考程度花費的算力(橫軸)也直接拉滿。

ARC-AGI是Keras之父François Chollet發(fā)起的測試基準(zhǔn),典型題目為圖形邏輯推理。

另一項測試是號稱最難數(shù)學(xué)測試的EpochAI Frontier Math,包含最新未公開前沿題目。

此前陶哲軒對這項測試的第一印象是“可能難住AI好幾年”。

o3在測試中比之前SOTA從2分提升到25分。

人類專業(yè)數(shù)學(xué)家解決其中一道題目也要花費數(shù)小時到數(shù)天,現(xiàn)在o3只需要思考幾分鐘了。

這次直播還公布了o3-mini,支持低中高三種思考程度設(shè)置。

主要展示了代碼能力,低設(shè)置下o3-mini和o1-mini差不多,中高設(shè)置已經(jīng)超過了o1正式版。

參與研究的北大校友任泓宇,現(xiàn)場展示了o3-mini的編程能力。

他使用了特殊版本的ChatGPT,稱為ChatGPT α。

任務(wù)如下:

寫一個Python腳本,在本地為一個帶有大文本框的HTML文件啟動服務(wù)器。當(dāng)我在該框中輸入文本并按下提交時,它應(yīng)該將該代碼請求發(fā)送到OpenAl o3-mini API ,使用medium reasoning_effort ,獲取生成的代碼,將其保存到桌面上的臨時文件中,然后在新的Python終端中執(zhí)行該文件。還有一些細節(jié):

可以在~/api_key中找到我的API密鑰

請在向API的請求中添加一些額外的提示,指定它只應(yīng)返回沒有任何格式或Markdown的原始代碼

你將在Mac筆記本電腦環(huán)境運行

o3-mini的思考過程用了38秒,然后代碼秒出,一次運行成功。

這個演示可能不太直觀,但是看得沒去現(xiàn)場的另一位OpenAI研究員Aidan Clark直出汗。

總結(jié)一下,就是o3-mini用38秒給自己寫了一個UI,通過API調(diào)用“自己”。

后續(xù)演示中,任泓宇要求o3-mini在這個UI中編寫并執(zhí)行一個腳本,來評估“它自己”在低思考程度下、在GPQA數(shù)據(jù)集上的表現(xiàn)。

腳本正確運行了評估,返回結(jié)果數(shù)值61.62%,與正式評估結(jié)果基本一致。

是不是有一點科幻的感覺了。

可惜吶~ o3和o3-mini目前都是早期預(yù)覽狀態(tài),只給看不給玩。

安全研究者可以在OpenAI官網(wǎng)申請早期訪問權(quán)限。

北大校友、GPT-4o核心開發(fā)者現(xiàn)身直播間

這場直播中另外值得關(guān)注的,就是新出場的北大校友任泓宇(最左邊)。

他去年剛加入OpenAI擔(dān)任研究科學(xué)家,主要負責(zé)語言模型訓(xùn)練,是GPT-4o的核心開發(fā)者、GPT-Next項目組成員。

直播中最新透露,九月份的o1-mini他也有參與,證實了此前傳聞中o1-mini主要由三位華人負責(zé)(另兩位是Kevin Lu和Jiahui Yu)。

任泓宇博士畢業(yè)于斯坦福大學(xué)。加入OpenAI之前,他在Apple、Google、NVIDIA 和Microsoft有大量研究實習(xí)經(jīng)歷。

One More Thing

笑死,最后一天頂著圣誕帽的“青蛙”直接被擺到了最前面:

其實,之前每一場它們都在,不過是被擺在了后面的架子上,而且數(shù)量隨直播天數(shù)增加。

昨天是直播第11天,圣誕帽“青蛙”是醬嬸兒的:

本文來源:量子位

o3    編程能力    AI
量子位

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部