丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給鄭佳美
發(fā)送

0

Agent 要被吃進(jìn)大模型了

本文作者: 鄭佳美   2025-04-23 10:50
導(dǎo)語:OpenAI 做 Agent,得天獨厚。

今天凌晨,奧特曼突然發(fā)文宣布推出自家最新的 o 系列模型:滿血版 o3 和 o4-mini,同時表示這兩款模型都可以自由調(diào)用 ChatGPT 里的各種工具,包括但不限于圖像生成、圖像分析、文件解釋、網(wǎng)絡(luò)搜索、Python。

總的來說,就是比前一代的性能更強(qiáng)而且價格更低。

Agent 要被吃進(jìn)大模型了

消息一出,馬上就有網(wǎng)友曬出了兩個模型的“小球測試”結(jié)果,并配文:“這確實是迄今為止看到的最好的測試結(jié)果了?!?/p>

Agent 要被吃進(jìn)大模型了

也有網(wǎng)友曬出了滿血版 o3 和 o4-mini 在 HLM 基準(zhǔn)的中的排名,其中 OpenAI 的兩款新模型僅用了幾個小時的時間就穩(wěn)穩(wěn)的“盤”上了榜單前三,引得網(wǎng)友大呼震驚。

Agent 要被吃進(jìn)大模型了

Agent 要被吃進(jìn)大模型了

o3 與 o4 mini 全面進(jìn)化

除了網(wǎng)友們的測評結(jié)果外,我們也來看一下 OpenAI 給出的兩個模型的官方數(shù)據(jù)。

首先,o3 在多個基準(zhǔn)測試中表現(xiàn)優(yōu)異,包括 Codeforces、SWE-bench 和 MMMU 等,刷新了多項紀(jì)錄。除此之外,o3 在應(yīng)對復(fù)雜現(xiàn)實任務(wù)時,比 OpenAI o1 減少了 20% 的重大錯誤,尤其在編程、商業(yè)咨詢和創(chuàng)意構(gòu)思領(lǐng)的方面能力最為突出。

Agent 要被吃進(jìn)大模型了

o4 mini 這邊,別看它體量不大,但專為快速、高效的推理任務(wù)而設(shè)計,可以支持比 o3 更高的使用頻率。

在數(shù)學(xué)、編程和視覺任務(wù)上的表現(xiàn)依然非常亮眼。在 2025 年 AIME 數(shù)學(xué)競賽中,借助 Python 解釋器的幫助,o4-mini 取得了99.5%的高分,幾乎達(dá)到了該測試的滿分水平。專家評估同樣顯示,它在非 STEM 任務(wù)以及數(shù)據(jù)科學(xué)領(lǐng)域的表現(xiàn)已經(jīng)超越了 o3-mini。

Agent 要被吃進(jìn)大模型了

此外,o3 和 o4-mini 首次實現(xiàn)了將圖像直接融入思維鏈的能力,它們不僅“看得見”圖像,更能“通過圖像思考”。這帶來了視覺與文本推理的全新融合方式,顯著提升了它們在多模態(tài)任務(wù)中的表現(xiàn)。

關(guān)于這點,OpenAI 圖像推理研究員 Jiahui Yu 發(fā)文稱:“自最初推出 o 系列以來,“圖像思考”始終是我們在感知領(lǐng)域的核心戰(zhàn)略之一。早期發(fā)布的 o1 vision,曾為這一方向提供了初步的探索與預(yù)覽;而如今,隨著 o3 和 o4-mini 的發(fā)布,這一戰(zhàn)略終于以更為成熟和完整的形式落地。多模態(tài)能力的持續(xù)演進(jìn),不僅推動了模型在理解世界方式上的躍升,也成為 OpenAI 實現(xiàn) AGI 愿景中不可或缺的關(guān)鍵一環(huán)?!?/p>

Agent 要被吃進(jìn)大模型了

模型性能毋庸置疑,而關(guān)于這兩款模型可以自由調(diào)用 ChatGPT 里的各種工具的能力,OpenAI 首席研究官 Mark Chen 也發(fā)文表示:一旦推理模型學(xué)會了端到端地使用工具,它們就會變得更加強(qiáng)大,而最新的 o 系列模型正在“向未來邁出的質(zhì)的一步”。

Agent 要被吃進(jìn)大模型了

所謂“質(zhì)的一步”,無非是將大模型的能力擴(kuò)展到目前最火的 Agent 領(lǐng)域,值得一提的是,這已經(jīng)不是 OpenAI 第一次向 Agent 領(lǐng)域進(jìn)發(fā)了。

今年年初,OpenAI 接連推出 Operator 和 Deep Research 兩個產(chǎn)品宣告向 Agent 進(jìn)發(fā),在此之前,他們還推出過一個類似于代辦助手的 Agent 產(chǎn)品 —— ChatGPT tasks,來試了試水花。

而這次的滿血版 o3 和 o4 mini 則是支持直接調(diào)用 ChatGPT 里的各種工具,從之前的“聰明大腦”直接進(jìn)化為了“靈巧雙手”。

有網(wǎng)友在試過了 o3 最新模型的調(diào)用能力后表示,模型幫他做了一些需要跨工具才能完成的工作,這讓他感覺到了 Agent 給人們帶來的便捷。

Agent 要被吃進(jìn)大模型了

OpenAI 做 Agent,得天獨厚

關(guān)于如何才能做出真正的 Agent,目前坊間的主流觀點是:強(qiáng)化學(xué)習(xí)加基座模型。

但在 Agent 的實際研發(fā)中,大多數(shù)專注于 Agent 的公司并不具備自研基座模型的能力,能夠組建強(qiáng)化學(xué)習(xí)團(tuán)隊的更是鳳毛麟角。它們唯一的機(jī)會,往往在于依靠強(qiáng)悍的工程能力持續(xù)打磨產(chǎn)品體驗,或通過差異化定位,探索某些功能層面的創(chuàng)新。

然而,由于缺乏底層模型的掌控權(quán),這樣的努力終究只是為自己在與大模型公司的賽道上爭取些許緩沖時間。正因如此,那些具備訓(xùn)練基礎(chǔ)模型能力的公司,在開發(fā) Agent 時,往往能夠?qū)崿F(xiàn)事半功倍的效果,占據(jù)天然優(yōu)勢。

巧合的是,Deep Research 團(tuán)隊曾在多次訪談中強(qiáng)調(diào),他們認(rèn)為基于強(qiáng)化學(xué)習(xí)的端到端訓(xùn)練是當(dāng)前 Agent 技術(shù)變革的關(guān)鍵所在,原因在于強(qiáng)化學(xué)習(xí)能夠有效突破傳統(tǒng) AI 系統(tǒng)在復(fù)雜場景中面臨的靈活性不足和泛化能力受限的問題。

在此基礎(chǔ)上,疊加 OpenAI 本身在基礎(chǔ)模型上的強(qiáng)大優(yōu)勢,或許不久之后,Agent 就會被吃進(jìn) ChatGTP 的某個版本之中。

Agent 要被吃進(jìn)大模型了

一位長期從事 Agent 方向的研究人員曾對 AI 科技評論表示:“用強(qiáng)化學(xué)習(xí)訓(xùn)練 Agent,本質(zhì)上更像是將語言模型的能力在特定環(huán)境中進(jìn)行定向強(qiáng)化和適配。也就是說,強(qiáng)化學(xué)習(xí)更多是在幫助語言模型在某一特定場景中“訓(xùn)得很好”。然而,目前許多學(xué)術(shù)研究仍停留在使用較基礎(chǔ)的 base model 進(jìn)行環(huán)境內(nèi)訓(xùn)練,這樣的工作即便做到極致,其成果也往往只是某個環(huán)境下的“特化版本”,難以實現(xiàn)跨環(huán)境的泛化能力,因此其實際意義和應(yīng)用價值仍然有限。”

順著這個點往下看,不難發(fā)現(xiàn)其實 OpenAI 已經(jīng)同時掌握了基礎(chǔ)模型和訓(xùn)練方式,擁有從底層能力到上層產(chǎn)品的完整控制權(quán),也因此在定價方便擁有了更大的自主權(quán)。

例如,Deep Research 的 Agent 以每月 200 美金的價格對外訂閱,全部收入可以留在體系內(nèi)部,而那些依賴第三方模型的獨立 Agent 團(tuán)隊,不僅受到 API 成本和模型性能波動的限制,在產(chǎn)品定價上也顯得捉襟見肘。

“略知皮毛”不如洞徹本質(zhì),“套殼”并不是長久之計,這么一看,OpenAI 做 Agent,就得天獨厚。

開源 Codex CLI

新模型之外,OpenAI 還開源了一款本地代碼智能體:Codex CLI。它是一個輕量級的編碼助手,可直接在用戶的終端命令行中運行,為的是充分發(fā)揮 o3、o4-mini 等模型的推理能力,緊密連接本地開發(fā)環(huán)境,未來還會支持 GPT 4.1 等其他模型。

值得一提的是,它甚至支持通過截圖或手繪草圖進(jìn)行多模態(tài)編程,直接刷新了代碼交互與內(nèi)容理解的邊界。

Agent 要被吃進(jìn)大模型了

雷峰網(wǎng)(公眾號:雷峰網(wǎng))觀察到,為了測試這個功能,在發(fā)布會的直播中,開發(fā)人員還現(xiàn)場用 Codex CLI 展示了一波實施攝影的 ASCII 畫面,讓不少直播間網(wǎng)友大呼:“Intresting!”參考鏈接:

https://x.com/sama/status/1912558495997784441

https://news.ycombinator.com/item?id=43707719#43711155

https://github.com/openai/codex

https://x.com/jhyuxm/status/1912562461624131982


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

Agent 要被吃進(jìn)大模型了

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說