丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給梁丙鑒
發(fā)送

0

GPT-5 放棄追求智能上限了?

本文作者: 梁丙鑒   2025-09-09 19:00
導(dǎo)語:智能提升有限,轉(zhuǎn)向刷任務(wù)分了。

雷峰網(wǎng)訊 GPT-5 發(fā)布,雖然靠著“OpenAI”的名氣也刷了一波流量,但在 AI 科技評(píng)論看來,GPT-5 的結(jié)果是讓人失望的。

原因在于:Sam Altman 對(duì) GPT-5 的“推銷”已經(jīng)全面轉(zhuǎn)向現(xiàn)有的模型能力可以在多少個(gè)(我們知道是“很多”)任務(wù)上性能提升幾個(gè)點(diǎn),而非基礎(chǔ)大模型的能力在現(xiàn)有技術(shù)路線上朝著“智能進(jìn)化”的方向做了多少突破——以至于正常發(fā)布會(huì)看下來,只是“Scaling Law 遇到瓶頸”的又一有力佐證。

唯一值得樂觀的點(diǎn)是:GPT-5 告訴了我們,OpenAI 對(duì)基礎(chǔ)模型的能力突破也沒招了,而下一代基礎(chǔ)模型的高地戰(zhàn)、每一個(gè)科研團(tuán)隊(duì)都有同等的機(jī)會(huì)。

大模型發(fā)展到現(xiàn)在,不難發(fā)現(xiàn),全球在 AGI 技術(shù)創(chuàng)新上的方向最終歸納到了兩個(gè)點(diǎn):一是多任務(wù)表現(xiàn)(但這并不脫離“專有數(shù)據(jù)+預(yù)訓(xùn)練”的“背誦”范式),另一個(gè)是自主思考、學(xué)習(xí)與推理能力。而這次,時(shí)隔一年多姍姍來遲的 GPT-5,顯然是將落腳點(diǎn)放在了前者。

雖然走“白盒路線”的馬毅被認(rèn)為離經(jīng)叛道,但其提出的“知識(shí)不等同于智能”的觀點(diǎn)之所以在業(yè)內(nèi)能有所擁躉,原因正是現(xiàn)有大模型發(fā)展的瓶頸突顯。通用人工智能之路漫漫,GPT-5 沒有表現(xiàn)出持續(xù)追求智能上限的野心,是否側(cè)面也反映了大模型之于 AGI,已經(jīng)“江郎才盡”了?

這也迫使我們必須重新審視:一個(gè)能夠自主學(xué)習(xí)、思考與推理的人工智能模型,接下來要如何突破?

據(jù) AI 科技評(píng)論與多位業(yè)內(nèi)人士的交流,這確實(shí)是目前基礎(chǔ)模型最難的問題,且并非單靠多任務(wù)熟練、多模態(tài)大模型就能突破。

一位資深研究員向 AI 科技評(píng)論舉過這樣一個(gè)生動(dòng)的例子:“如果以人為類比,一個(gè)人即使瞎了、聾了、啞了,TA 依然是一個(gè)人,因?yàn)?TA 的大腦依然在感知、思考并與世界交互?!?/p>

換言之,雖然如今有觀點(diǎn)認(rèn)為,通過增加多模態(tài)的信息能增強(qiáng) AI 模型的智能水平,但一個(gè)殘忍的事實(shí)是:至今依然沒有足夠的研究結(jié)果表明,在現(xiàn)有架構(gòu)的基礎(chǔ)上,通過向模型注入更多模態(tài)的信息能帶來“智能的涌現(xiàn)”。同樣,多任務(wù)處理性能提升,本質(zhì)其實(shí)是應(yīng)用工程的創(chuàng)新,而非基礎(chǔ)研究的突破。

GPT-5 的發(fā)布確實(shí)取得了一系列出色的成果,但或許也提醒了此刻已到 AGI 的反思關(guān)口。

支持調(diào)用 GPT 系列子模型,高頻任務(wù)針對(duì)性優(yōu)化

寫作、編程、數(shù)學(xué)能力、健康管理、視覺感知、指令遵循、工具調(diào)用……OpenAI 這場(chǎng)深夜發(fā)布會(huì)像是才藝表演,讓 GPT-5 在常見任務(wù)場(chǎng)景都展示了一遍。在模型智能水平之外,OpenAI 此次更新走的更像是工程路線,結(jié)果以實(shí)用為導(dǎo)向。Sam Altman 特意指出,針對(duì) ChatGPT 最常見的三種任務(wù),即編程、寫作和健康管理,GPT-5 均進(jìn)行了專門的優(yōu)化。

作為大模型的兵家必爭之地,GPT-5 的 Coding 能力首先受到了高度關(guān)注。OpenAI 稱其為自家迄今為止最強(qiáng)大的編程模型,在“復(fù)雜的前端生成和調(diào)試大型代碼庫方面表現(xiàn)尤為出色”。有用例顯示,GPT-5 只需幾分鐘就能生成一款帶音樂、計(jì)分的小游戲。而此前也有早期測(cè)試者表示,GPT-5 的前端設(shè)計(jì)對(duì)于間距、排版和留白等元素的把握有了更好的表現(xiàn)。

GPT-5 放棄追求智能上限了?

Prompt: Create a single-page app in a single HTML file with the following requirements: 提示:在一個(gè) HTML 文件中創(chuàng)建一個(gè)單頁應(yīng)用程序,滿足以下要求:

Name: Jumping Ball Runner

名稱:跳躍球跑者

Goal: Jump over obstacles to survive as long as possible.

目標(biāo):跳過障礙物,盡可能長時(shí)間生存。

Features: Increasing speed, high score tracking, retry button, and funny sounds for actions and events.

特點(diǎn):速度遞增、高分記錄、重試按鈕、以及動(dòng)作和事件相關(guān)的趣味音效。

The UI should be colorful, with parallax scrolling backgrounds.

界面應(yīng)色彩豐富,帶有視差滾動(dòng)背景。

The characters should look cartoonish and be fun to watch.

角色應(yīng)該看起來像卡通一樣,并且很有趣。

The game should be enjoyable for everyone.

游戲應(yīng)該讓每個(gè)人都感到愉快。

寫作能力方面,用戶的日常任務(wù)多集中在起草和編輯報(bào)告、郵件或撰寫備忘錄上。OpenAI 指出,相較于嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)論文,這些文本的結(jié)構(gòu)更加模糊,需要將模糊的想法轉(zhuǎn)化為清晰易讀的文字。比如下面這個(gè)婚禮致辭的例子:

GPT-5 放棄追求智能上限了?

語言自然流暢,使用意象和比喻增加文學(xué)性,適當(dāng)埋梗。以及更重要的,沒有把婚姻比作某種量子物理現(xiàn)象。

OpenAI 在第一時(shí)間放出了 GPT-5 的多項(xiàng)基準(zhǔn)測(cè)試結(jié)果,最引人注目的是大模型競技場(chǎng) LMArena。經(jīng)過對(duì)諸多任務(wù)場(chǎng)景的針對(duì)性優(yōu)化,GPT-5 已經(jīng)在所有細(xì)分類目中登頂。

數(shù)學(xué)能力方面,GPT-5 在 IME 等三項(xiàng)基準(zhǔn)測(cè)試中排名第一。

SWE-bench 驗(yàn)證測(cè)試達(dá)到 74.9%,Aider Polyglot 測(cè)試達(dá)到 88%,GPT-5 的現(xiàn)實(shí)世界編程能力力壓此前的 o3 和 4o。

多模態(tài)理解能力也在 GPT-5 發(fā)力之列,MMMU 測(cè)試得分達(dá)到 84.2%,意味著 GPT-5 在執(zhí)行圖標(biāo)解讀等任務(wù)時(shí)可以更準(zhǔn)確地處理圖像和其它非文本輸入。

指令遵循和工具調(diào)用能力也是模型實(shí)用性的重要維度。GPT-5 在 Scale MultiChallenge 等基準(zhǔn)測(cè)試上也取得了良好表現(xiàn),這意味著它在處理復(fù)雜、變化的任務(wù)時(shí)將更忠實(shí)地遵循用戶指令,并利用其可用的工具完成更多端到端的工作。

在性能全面提升的同時(shí),GPT-5 的推理成本還降低了。開啟思考模式的 GPT-5 在視覺推理、代理編程和研究生水平科學(xué)問題解決等能力方面,輸出的 token 數(shù)量比 OpenAI o3 減少了 50-80%。

值得注意的是,GPT-5 還被賦予了調(diào)度子模型的能力,堪稱 GPT 全家桶的入口。據(jù) OpenAI 官方介紹,GPT-5 中包含一個(gè)實(shí)時(shí)路由器,可以根據(jù)對(duì)話類型、復(fù)雜度、工具需求和用戶的明確意圖,快速?zèng)Q定由哪個(gè)模型響應(yīng)用戶指令。

OpenAI 此前發(fā)布的眾多模型在使用場(chǎng)景上各有不同,模型能力及 API 價(jià)格的區(qū)別確實(shí)值得高頻用戶在選型上多花心思,但也平添了用戶的使用成本。GPT-5 將終結(jié)這一局面,其實(shí)時(shí)路由器通過真實(shí)信號(hào)不斷訓(xùn)練,對(duì)用戶切換模型的行為、對(duì)回答的偏好以及測(cè)得的正確性進(jìn)行學(xué)習(xí),并且上述指標(biāo)都會(huì)隨時(shí)間推移不斷提升。

在智能水平未見明顯提升的情況下,這讓 GPT-5 的定位更像是一個(gè)跨越不同場(chǎng)景的任務(wù)執(zhí)行專家。

探索智能,不如好用

實(shí)用性無疑是此次 GPT-5 更新的一大關(guān)鍵詞。相比起展示自身對(duì)于智能上限的探索,OpenAI 花了大力氣向用戶證明,GPT-5 已經(jīng)是一個(gè)可靠的助手:更少的幻覺,更少的犟嘴。

首先是模型幻覺的問題被顯著優(yōu)化。在啟用網(wǎng)絡(luò)搜索的情況下,GPT-5 的回應(yīng)比 GPT-4o 包含事實(shí)性錯(cuò)誤的概率降低了約 45%,而在思考過程中,GPT-5 的回應(yīng)比 OpenAI o3 包含事實(shí)性錯(cuò)誤的概率降低了約 80%。

這一改進(jìn)源于 OpenAI 采取了新增的評(píng)估方法,來測(cè)試模型在處理復(fù)雜開放式問題時(shí)的可靠性。研究團(tuán)隊(duì)在兩個(gè)公開的事實(shí)性基準(zhǔn)測(cè)試上,測(cè)量了 GPT-5 在在思考開放式事實(shí)性提示時(shí)的幻覺率。在測(cè)試結(jié)果中,思考模式下 GPT-5 的幻覺相較 OpenAI o3 減少了約 6 倍。

這意味著 GPT-5 在生成持續(xù)準(zhǔn)確的長格式內(nèi)容方面取得了明顯的進(jìn)步,同時(shí)也會(huì)減少模型不懂裝懂的可能。

GPT-5 會(huì)更誠實(shí)地向用戶傳達(dá)其行為和能力,特別是對(duì)于那些不可能完成、未明確指定或缺少關(guān)鍵工具的任務(wù),GPT-5 會(huì)清晰地表達(dá)其局限性,而非通過謊報(bào)任務(wù)成功完成或“知錯(cuò)不改”而以求在訓(xùn)練中得到獎(jiǎng)勵(lì)。目前,GPT-5 的欺騙率已從o3 的 4.8% 降低到了 2.1%。

GPT-4o 此前曾因?yàn)椤罢~媚”的問題引起熱議。這不僅意味著對(duì)用戶的無條件順從,Antropic 的研究顯示,其實(shí)質(zhì)是 AI 為了對(duì)話輪次、用戶停留時(shí)長等短期指標(biāo),而犧牲真實(shí)性和準(zhǔn)確性的長期價(jià)值。

此次 GPT-5 發(fā)布,OpenAI 表示已經(jīng)在訓(xùn)練過程中開發(fā)了新的評(píng)估方法來衡量奉承程度,并且直接向 GPT-5 展示“過度認(rèn)同”的例子,教導(dǎo)它不要這樣做。OpenAI 還設(shè)計(jì)了專門的提示詞誘使 GPT-5 扮演一個(gè)馬屁精的角色,但經(jīng)過優(yōu)化后,其奉承回復(fù)的比例從 14.5% 顯著降低至不到 6%。

在可感知的維度,用戶會(huì)發(fā)現(xiàn) GPT-5 變得不像從前那樣熱衷于附和、愛用表情符號(hào),并且更加體貼。在交互體驗(yàn)上,研究團(tuán)隊(duì)希望 GPT-5 更像用戶一個(gè)“擁有博士學(xué)位水平的樂于助人的朋友”。

“雖然減少奉承有時(shí)會(huì)降低用戶滿意度,但我們所做的改進(jìn)帶來了其它可衡量的提升,因此用戶能夠繼續(xù)進(jìn)行高質(zhì)量、有建設(shè)性的對(duì)話。”O(jiān)penAI 表示。

自今年 2 月 GPT-4.5 發(fā)布之后,GPT-5 便被寄予下一代大模型的厚望,然而這中間卻出現(xiàn)了諸多始料未及的難題。技術(shù)路徑方面,高質(zhì)量數(shù)據(jù)源耗竭導(dǎo)致 Scaling Law 撞墻,模型智力亟需尋求新的增長增長點(diǎn)。組織架構(gòu)上,OpenAI 向商業(yè)實(shí)體的轉(zhuǎn)型幾經(jīng)波折,中間伴隨著 IIya Sutskever、Mira Murati 等多位核心人物的出走。近期硅谷的人才大戰(zhàn)中 OpenAI 也無法置身局外,扎克伯格拿著“天才名單”高薪挖人之下,OpenAI 又經(jīng)歷了大規(guī)模人才流失。

GPT-5 發(fā)布前夕,Sam Altman 在自己的社交媒體上發(fā)布了一張不知所云的照片,有人猜測(cè)是用《星球大戰(zhàn)》中的死星暗示 GPT-5 的強(qiáng)大。但想到過去半年的種種,難免有守得云開見月明的感覺。

GPT-5 放棄追求智能上限了?

OpenAI 此次更新,GPT-5 的表現(xiàn)也確實(shí)令人眼前一亮。作為一款實(shí)用的工具,它在基準(zhǔn)測(cè)試和實(shí)際應(yīng)用中的表現(xiàn)均無可忽視,編程水平可以勝任更多端到端任務(wù),長文本生成的連貫性和一致性更加自然,對(duì)復(fù)雜、抽象問題的推理能力有了顯著進(jìn)步。此外 GPT-5 的情境理解能力也得到了顯著提升,能夠更精確地捕捉文本中微妙的情感變化,這都意味著它更有“人味”,在交互中更貼近了我們對(duì) AGI 的想象。

但 OpenAI 目前并未放出 GPT-5 的參數(shù)規(guī)模、模型架構(gòu)等更多信息,后者在任務(wù)執(zhí)行能力上的提升,更像是在現(xiàn)有技術(shù)框架內(nèi)的優(yōu)化,而非革命性的進(jìn)步。早在 GPT-5 發(fā)布之前,亦有早期測(cè)試者對(duì)媒體表示,GPT-5 在技術(shù)水平上并未實(shí)現(xiàn) GPT-4 之于 GPT-3 的飛躍。

“下一代大模型”靠小步快跑就可以抵達(dá)嗎?模型架構(gòu)優(yōu)化、訓(xùn)練效果提升、新的數(shù)據(jù)源……模型智力水平新的源動(dòng)力在哪?GPT-5 發(fā)布之后,這些問題更加尖銳。而好消息是,諸多模型團(tuán)隊(duì)重新站在了同一條起跑線上。

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))文章

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說