丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給賴文昕
發(fā)送

0

免費(fèi)GPT-4o來(lái)襲,音頻視覺(jué)文本實(shí)現(xiàn)「大一統(tǒng)」

本文作者: 賴文昕 2024-05-14 15:49
導(dǎo)語(yǔ):導(dǎo)語(yǔ):OpenAI「魔法」降臨。


作者 | 賴文昕

今天凌晨,即北京時(shí)間5月14日1點(diǎn)整,OpenAI 召開了首場(chǎng)春季發(fā)布會(huì),CTO Mira Murati 在臺(tái)上和團(tuán)隊(duì)用短短不到30分鐘的時(shí)間,揭開了最新旗艦?zāi)P?GPT-4o 的神秘面紗,以及基于 GPT-4o 的 ChatGPT,均為免費(fèi)使用。

此前,有傳言稱 OpenAI 將推出 AI 搜索引擎,旨在與谷歌明天舉辦的 I/O 開發(fā)者大會(huì)一較高下,一度引發(fā)了公眾的熱烈討論。

不過(guò) Sam Altman 隨后在 X(原推特)上表示,要展示的并非 GPT-5 或搜索引擎,而是一些令人期待的創(chuàng)新成果,他本人對(duì)此充滿期待,認(rèn)為其像魔法一樣神奇。

那么,GPT-4o 是否真的如 Sam Altman 所說(shuō),是 OpenAI 帶來(lái)的「新魔法」呢?


多模態(tài)實(shí)時(shí)語(yǔ)音助手,更快更全更有情感

登臺(tái)后,Mira Murati 宣布了 ChatGPT 的桌面版本和新 UI,緊接著就介紹了本場(chǎng)發(fā)布會(huì)的主角——GPT-4o 。

在發(fā)布會(huì)上,Mira Murati 與團(tuán)隊(duì)成員 Mark Chen、Barret Zoph一起,重點(diǎn)展示了基于 GPT-4o 的 ChatGPT 在不同任務(wù)中的實(shí)際表現(xiàn),尤其展現(xiàn)了其語(yǔ)音能力。

若用關(guān)鍵詞加以總結(jié),搭載 GPT-4o 的 ChatGPT 可謂是又快、又全、又有情感。

與 ChatGPT 對(duì)話時(shí),用戶不必等 ChatGPT 說(shuō)完,可以隨時(shí)插話;模型能夠?qū)崟r(shí)響應(yīng),不存在尷尬的幾秒延遲。

在 Mark 表示自己很緊張且捕捉到他急促的呼吸后,ChatGPT 還會(huì)提醒需要冷靜情緒,識(shí)別其呼吸節(jié)奏并引導(dǎo)他做深呼吸。

免費(fèi)GPT-4o來(lái)襲,音頻視覺(jué)文本實(shí)現(xiàn)「大一統(tǒng)」

模型能夠以各種不同的風(fēng)格生成聲音。無(wú)論對(duì)話時(shí)讓 ChatGPT 用唱歌的方式、機(jī)器人機(jī)械音還是戲劇化的語(yǔ)氣講故事,它都能迅速反應(yīng)并輸出。

基于 GPT-4o 強(qiáng)大的視覺(jué)能力,用戶還可以語(yǔ)音讓 ChatGPT 分析頁(yè)面上的數(shù)據(jù)圖表。

更強(qiáng)大的是,打開攝像頭后寫下一道數(shù)學(xué)題,ChatGPT 還會(huì)一步步引導(dǎo)該如何解下一步,其講解的清晰度與耐心堪比幼教。

免費(fèi)GPT-4o來(lái)襲,音頻視覺(jué)文本實(shí)現(xiàn)「大一統(tǒng)」

ChatGPT的「同傳能力」也不容小覷,OpenAI 團(tuán)隊(duì)還在現(xiàn)場(chǎng)展示了一波英語(yǔ)和意大利語(yǔ)的實(shí)時(shí)互譯,中間實(shí)現(xiàn)零延遲。

更有意思的是,ChatGPT 在對(duì)話中還會(huì)使用語(yǔ)氣詞,甚至是向 OpenAI 團(tuán)隊(duì)開玩笑和表達(dá)感謝。在「看到」他們寫下「我愛 ChatGPT」的文字后,ChatGPT 甚至?xí)诎l(fā)出撒嬌的聲音后,再表?yè)P(yáng)其貼心。

免費(fèi)GPT-4o來(lái)襲,音頻視覺(jué)文本實(shí)現(xiàn)「大一統(tǒng)」

ChatGPT 甚至還能和用戶「視頻聊天」。在演示中,Barret 讓 ChatGPT 猜測(cè)自己的情緒,在他開始露出笑臉后,ChatGPT 直接語(yǔ)音回復(fù)「你看起來(lái)很開心,笑容燦爛,還有點(diǎn)激動(dòng)?!?/p>

免費(fèi)GPT-4o來(lái)襲,音頻視覺(jué)文本實(shí)現(xiàn)「大一統(tǒng)」

英偉達(dá)首席 AI 科學(xué)家 Jim Fan 曾講述過(guò)當(dāng)前實(shí)時(shí)語(yǔ)音助手(如 Siri )的困境,即很難創(chuàng)造出沉浸式的使用體驗(yàn)。

用戶在和 AI 語(yǔ)音助手對(duì)話時(shí)要經(jīng)歷三個(gè)階段:語(yǔ)音識(shí)別(ASR),將音頻轉(zhuǎn)換為文本,例如 Whisper;大語(yǔ)言模型(LLM)規(guī)劃接下來(lái)的話語(yǔ),將第一階段的文本轉(zhuǎn)換為新的文本; 語(yǔ)音合成(TTS),將新文本轉(zhuǎn)換回音頻,如 ElevenLabs 或 VALL-E 。

免費(fèi)GPT-4o來(lái)襲,音頻視覺(jué)文本實(shí)現(xiàn)「大一統(tǒng)」

如果簡(jiǎn)單地按順序執(zhí)行,就會(huì)產(chǎn)生巨大的延遲,特別是當(dāng)每一步都需要等待幾秒時(shí),用戶體驗(yàn)就會(huì)急劇下降,哪怕合成的音頻聽起來(lái)非常真實(shí),也會(huì)讓用戶格外「出戲」,就更別提沉浸式的使用體驗(yàn)了。

以往的 ChatGPT 語(yǔ)音模式也是如此,依賴三個(gè)獨(dú)立模型工作,平均延遲時(shí)間為 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4),語(yǔ)音助手也總會(huì)出現(xiàn)信息丟失,既不能判斷語(yǔ)調(diào)、多個(gè)說(shuō)話者或背景噪音,也不能輸出笑聲、唱歌或表達(dá)情感。

而現(xiàn)在,GPT-4o 的音頻輸入響應(yīng)時(shí)間最短為232毫秒,平均響應(yīng)時(shí)間為320毫秒,與人類在對(duì)話中的反應(yīng)時(shí)間極為相似。

作為一個(gè)全新的單一模型,GPT-4o 能端到端地跨文本、視覺(jué)和音頻,所有輸入和輸出都由同一個(gè)神經(jīng)網(wǎng)絡(luò)處理,直接一步到位,在用戶輸入后(文本、語(yǔ)音、圖像、視頻均可)直接生成音頻回答。


GPT-4o ,一款免費(fèi)的全能 GPT-4

Mira Murati 在發(fā)布會(huì)上表示,GPT-4o 最棒的地方在于,它將 GPT-4 的智能提供給每個(gè)人,包括免費(fèi)用戶,將在未來(lái)幾周內(nèi)迭代式地在公司產(chǎn)品中推出。

GPT-4o 中的字母 o 指 omni,在拉丁語(yǔ)詞根中是「全」的意思,是涵蓋了文字、語(yǔ)音、圖片、視頻的多模態(tài)模型,接受任何模態(tài)的組合作為輸入,并能生成任何模態(tài)的組合輸出。

據(jù) OpenAI 官網(wǎng),GPT-4o 不僅在文本和代碼處理的性能上與GPT-4 Turbo持平,而且在 API 調(diào)用上速度更快,價(jià)格更是降低了50%。

免費(fèi)GPT-4o來(lái)襲,音頻視覺(jué)文本實(shí)現(xiàn)「大一統(tǒng)」


文本能力測(cè)試

免費(fèi)GPT-4o來(lái)襲,音頻視覺(jué)文本實(shí)現(xiàn)「大一統(tǒng)」


與GPT-4對(duì)比多語(yǔ)言考試能力

更重要的是,GPT-4o 的視覺(jué)理解能力在相關(guān)基準(zhǔn)上取得了壓倒性的勝利。

免費(fèi)GPT-4o來(lái)襲,音頻視覺(jué)文本實(shí)現(xiàn)「大一統(tǒng)」

在音頻方面,GPT-4o 的語(yǔ)音識(shí)別(ASR)也比 OpenAI 的語(yǔ)音識(shí)別模型 Whisper 性能更佳(越低越好)。

免費(fèi)GPT-4o來(lái)襲,音頻視覺(jué)文本實(shí)現(xiàn)「大一統(tǒng)」

與 Meta、谷歌的語(yǔ)音轉(zhuǎn)寫模型相比,GPT-4o 同樣領(lǐng)先(越高越好)。

免費(fèi)GPT-4o來(lái)襲,音頻視覺(jué)文本實(shí)現(xiàn)「大一統(tǒng)」

若落實(shí)到實(shí)際生活的使用中,GPT-4o 究竟能給普羅大眾帶來(lái)什么變化呢?

OpenAI的官網(wǎng)展示了 GPT-4o 在海報(bào)創(chuàng)作、三維重建、字體設(shè)計(jì)、會(huì)議總結(jié)等等一系列充滿可能性的應(yīng)用。

比如,在輸入人物圖片、海報(bào)元素以及想要的風(fēng)格后,GPT-4o 就能給用戶生成一張電影海報(bào)。

免費(fèi)GPT-4o來(lái)襲,音頻視覺(jué)文本實(shí)現(xiàn)「大一統(tǒng)」免費(fèi)GPT-4o來(lái)襲,音頻視覺(jué)文本實(shí)現(xiàn)「大一統(tǒng)」

免費(fèi)GPT-4o來(lái)襲,音頻視覺(jué)文本實(shí)現(xiàn)「大一統(tǒng)」

或者,根據(jù)輸入的詩(shī)歌文本,GPT-4o 能生成用手寫體寫著詩(shī)歌、畫著畫的單行本圖片。

免費(fèi)GPT-4o來(lái)襲,音頻視覺(jué)文本實(shí)現(xiàn)「大一統(tǒng)」


免費(fèi)GPT-4o來(lái)襲,音頻視覺(jué)文本實(shí)現(xiàn)「大一統(tǒng)」

在輸入6張 OpenAI 的 logo圖后,GPT-4o 能三維重建出其立體動(dòng)圖。

免費(fèi)GPT-4o來(lái)襲,音頻視覺(jué)文本實(shí)現(xiàn)「大一統(tǒng)」

甚至還可以讓 GPT-4o 幫忙把 logo 印在杯墊上。

免費(fèi)GPT-4o來(lái)襲,音頻視覺(jué)文本實(shí)現(xiàn)「大一統(tǒng)」


「今天,有 1 億人使用 ChatGPT 來(lái)創(chuàng)作、工作、學(xué)習(xí),以前這些高級(jí)工具只對(duì)付費(fèi)用戶可用,但現(xiàn)在,有了 GPT-4o 的效率,我們可以將這些工具帶給每個(gè)人?!筂ira Murati 如是說(shuō)道。


寫在后面

發(fā)布會(huì)之外,OpenAI 研究員 William Fedus 透露,此前在大模型競(jìng)技場(chǎng)參與A/B測(cè)試并碾壓全場(chǎng)的模型「im-also-a-good-gpt2-chatbot」,就是本次登場(chǎng)的 GPT-4o 。

免費(fèi)GPT-4o來(lái)襲,音頻視覺(jué)文本實(shí)現(xiàn)「大一統(tǒng)」


截至2024年3月,OpenAI 在不到十年的運(yùn)營(yíng)時(shí)間內(nèi),已經(jīng)完成了10輪的融資,累計(jì)籌集資金超過(guò)了140億美元,其估值在2月的融資交易中已經(jīng)飆升至800億美元。

伴隨著狂飆的市值,OpenAI 的技術(shù)版圖已經(jīng)橫跨了多個(gè) AI 的關(guān)鍵領(lǐng)域,形成了一個(gè)全面而深入的產(chǎn)品矩陣。

API 產(chǎn)品線提供了包括 GPT 模型、DALL·E 模型、Whisper 語(yǔ)音識(shí)別模型在內(nèi)的多樣化服務(wù),并通過(guò)對(duì)話、量化、分析、微調(diào)等高級(jí)功能,為開發(fā)者提供技術(shù)支持;ChatGPT 為核心的產(chǎn)品線分別推出了個(gè)人版和企業(yè)版。

在音樂(lè)生成領(lǐng)域,OpenAI 也有一定的技術(shù)積累,比如經(jīng)過(guò)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò) MuseNet,可預(yù)測(cè)并生成 MIDI 音樂(lè)文件中的后續(xù)音符,以及能生成帶人聲音樂(lè)的開源算法 Jukebox。

再加上年初春節(jié)假期期間毫無(wú)征兆推出的 AI 視頻生成大模型 Sora,更是讓網(wǎng)友們感嘆「現(xiàn)實(shí),不存在了。」

毋庸置疑,OpenAI 是大模型這場(chǎng)擂臺(tái)賽中當(dāng)之無(wú)愧的擂主,其技術(shù)與產(chǎn)品的迭代更是整個(gè)行業(yè)的風(fēng)向標(biāo),不少大模型創(chuàng)業(yè)者都遇過(guò)「OpenAI 不做,沒(méi)人投;OpenAI 一做,人人投」的融資奇觀。

但隨著 Claude 3 和 Llama 3 的緊追與 GPT Store 上線2個(gè)月慘遭「滑鐵盧」,不少 AI 行業(yè)從業(yè)者開始對(duì) OpenAI 祛魅,認(rèn)為「大模型護(hù)城河很淺,一年就趕上了?!?/p>

現(xiàn)在看來(lái),OpenAI 果然還是 OpenAI。

本文雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))作者 anna042023 將持續(xù)關(guān)注AI大模型領(lǐng)域的人事、企業(yè)、商業(yè)應(yīng)用以及行業(yè)發(fā)展趨勢(shì),歡迎添加雷峰網(wǎng)作者交流,互通有無(wú)。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

免費(fèi)GPT-4o來(lái)襲,音頻視覺(jué)文本實(shí)現(xiàn)「大一統(tǒng)」

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)