丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給賴文昕
發(fā)送

0

免費GPT-4o來襲,音頻視覺文本實現(xiàn)「大一統(tǒng)」

本文作者: 賴文昕 2024-05-14 15:49
導(dǎo)語:導(dǎo)語:OpenAI「魔法」降臨。


作者 | 賴文昕

今天凌晨,即北京時間5月14日1點整,OpenAI 召開了首場春季發(fā)布會,CTO Mira Murati 在臺上和團(tuán)隊用短短不到30分鐘的時間,揭開了最新旗艦?zāi)P?GPT-4o 的神秘面紗,以及基于 GPT-4o 的 ChatGPT,均為免費使用。

此前,有傳言稱 OpenAI 將推出 AI 搜索引擎,旨在與谷歌明天舉辦的 I/O 開發(fā)者大會一較高下,一度引發(fā)了公眾的熱烈討論。

不過 Sam Altman 隨后在 X(原推特)上表示,要展示的并非 GPT-5 或搜索引擎,而是一些令人期待的創(chuàng)新成果,他本人對此充滿期待,認(rèn)為其像魔法一樣神奇。

那么,GPT-4o 是否真的如 Sam Altman 所說,是 OpenAI 帶來的「新魔法」呢?


多模態(tài)實時語音助手,更快更全更有情感

登臺后,Mira Murati 宣布了 ChatGPT 的桌面版本和新 UI,緊接著就介紹了本場發(fā)布會的主角——GPT-4o 。

在發(fā)布會上,Mira Murati 與團(tuán)隊成員 Mark Chen、Barret Zoph一起,重點展示了基于 GPT-4o 的 ChatGPT 在不同任務(wù)中的實際表現(xiàn),尤其展現(xiàn)了其語音能力。

若用關(guān)鍵詞加以總結(jié),搭載 GPT-4o 的 ChatGPT 可謂是又快、又全、又有情感。

與 ChatGPT 對話時,用戶不必等 ChatGPT 說完,可以隨時插話;模型能夠?qū)崟r響應(yīng),不存在尷尬的幾秒延遲。

在 Mark 表示自己很緊張且捕捉到他急促的呼吸后,ChatGPT 還會提醒需要冷靜情緒,識別其呼吸節(jié)奏并引導(dǎo)他做深呼吸。

免費GPT-4o來襲,音頻視覺文本實現(xiàn)「大一統(tǒng)」

模型能夠以各種不同的風(fēng)格生成聲音。無論對話時讓 ChatGPT 用唱歌的方式、機(jī)器人機(jī)械音還是戲劇化的語氣講故事,它都能迅速反應(yīng)并輸出。

基于 GPT-4o 強(qiáng)大的視覺能力,用戶還可以語音讓 ChatGPT 分析頁面上的數(shù)據(jù)圖表。

更強(qiáng)大的是,打開攝像頭后寫下一道數(shù)學(xué)題,ChatGPT 還會一步步引導(dǎo)該如何解下一步,其講解的清晰度與耐心堪比幼教。

免費GPT-4o來襲,音頻視覺文本實現(xiàn)「大一統(tǒng)」

ChatGPT的「同傳能力」也不容小覷,OpenAI 團(tuán)隊還在現(xiàn)場展示了一波英語和意大利語的實時互譯,中間實現(xiàn)零延遲。

更有意思的是,ChatGPT 在對話中還會使用語氣詞,甚至是向 OpenAI 團(tuán)隊開玩笑和表達(dá)感謝。在「看到」他們寫下「我愛 ChatGPT」的文字后,ChatGPT 甚至?xí)诎l(fā)出撒嬌的聲音后,再表揚其貼心。

免費GPT-4o來襲,音頻視覺文本實現(xiàn)「大一統(tǒng)」

ChatGPT 甚至還能和用戶「視頻聊天」。在演示中,Barret 讓 ChatGPT 猜測自己的情緒,在他開始露出笑臉后,ChatGPT 直接語音回復(fù)「你看起來很開心,笑容燦爛,還有點激動?!?/p>

免費GPT-4o來襲,音頻視覺文本實現(xiàn)「大一統(tǒng)」

英偉達(dá)首席 AI 科學(xué)家 Jim Fan 曾講述過當(dāng)前實時語音助手(如 Siri )的困境,即很難創(chuàng)造出沉浸式的使用體驗。

用戶在和 AI 語音助手對話時要經(jīng)歷三個階段:語音識別(ASR),將音頻轉(zhuǎn)換為文本,例如 Whisper;大語言模型(LLM)規(guī)劃接下來的話語,將第一階段的文本轉(zhuǎn)換為新的文本; 語音合成(TTS),將新文本轉(zhuǎn)換回音頻,如 ElevenLabs 或 VALL-E 。

免費GPT-4o來襲,音頻視覺文本實現(xiàn)「大一統(tǒng)」

如果簡單地按順序執(zhí)行,就會產(chǎn)生巨大的延遲,特別是當(dāng)每一步都需要等待幾秒時,用戶體驗就會急劇下降,哪怕合成的音頻聽起來非常真實,也會讓用戶格外「出戲」,就更別提沉浸式的使用體驗了。

以往的 ChatGPT 語音模式也是如此,依賴三個獨立模型工作,平均延遲時間為 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4),語音助手也總會出現(xiàn)信息丟失,既不能判斷語調(diào)、多個說話者或背景噪音,也不能輸出笑聲、唱歌或表達(dá)情感。

而現(xiàn)在,GPT-4o 的音頻輸入響應(yīng)時間最短為232毫秒,平均響應(yīng)時間為320毫秒,與人類在對話中的反應(yīng)時間極為相似。

作為一個全新的單一模型,GPT-4o 能端到端地跨文本、視覺和音頻,所有輸入和輸出都由同一個神經(jīng)網(wǎng)絡(luò)處理,直接一步到位,在用戶輸入后(文本、語音、圖像、視頻均可)直接生成音頻回答。


GPT-4o ,一款免費的全能 GPT-4

Mira Murati 在發(fā)布會上表示,GPT-4o 最棒的地方在于,它將 GPT-4 的智能提供給每個人,包括免費用戶,將在未來幾周內(nèi)迭代式地在公司產(chǎn)品中推出。

GPT-4o 中的字母 o 指 omni,在拉丁語詞根中是「全」的意思,是涵蓋了文字、語音、圖片、視頻的多模態(tài)模型,接受任何模態(tài)的組合作為輸入,并能生成任何模態(tài)的組合輸出。

據(jù) OpenAI 官網(wǎng),GPT-4o 不僅在文本和代碼處理的性能上與GPT-4 Turbo持平,而且在 API 調(diào)用上速度更快,價格更是降低了50%。

免費GPT-4o來襲,音頻視覺文本實現(xiàn)「大一統(tǒng)」


文本能力測試

免費GPT-4o來襲,音頻視覺文本實現(xiàn)「大一統(tǒng)」


與GPT-4對比多語言考試能力

更重要的是,GPT-4o 的視覺理解能力在相關(guān)基準(zhǔn)上取得了壓倒性的勝利。

免費GPT-4o來襲,音頻視覺文本實現(xiàn)「大一統(tǒng)」

在音頻方面,GPT-4o 的語音識別(ASR)也比 OpenAI 的語音識別模型 Whisper 性能更佳(越低越好)。

免費GPT-4o來襲,音頻視覺文本實現(xiàn)「大一統(tǒng)」

與 Meta、谷歌的語音轉(zhuǎn)寫模型相比,GPT-4o 同樣領(lǐng)先(越高越好)。

免費GPT-4o來襲,音頻視覺文本實現(xiàn)「大一統(tǒng)」

若落實到實際生活的使用中,GPT-4o 究竟能給普羅大眾帶來什么變化呢?

OpenAI的官網(wǎng)展示了 GPT-4o 在海報創(chuàng)作、三維重建、字體設(shè)計、會議總結(jié)等等一系列充滿可能性的應(yīng)用。

比如,在輸入人物圖片、海報元素以及想要的風(fēng)格后,GPT-4o 就能給用戶生成一張電影海報。

免費GPT-4o來襲,音頻視覺文本實現(xiàn)「大一統(tǒng)」免費GPT-4o來襲,音頻視覺文本實現(xiàn)「大一統(tǒng)」

免費GPT-4o來襲,音頻視覺文本實現(xiàn)「大一統(tǒng)」

或者,根據(jù)輸入的詩歌文本,GPT-4o 能生成用手寫體寫著詩歌、畫著畫的單行本圖片。

免費GPT-4o來襲,音頻視覺文本實現(xiàn)「大一統(tǒng)」


免費GPT-4o來襲,音頻視覺文本實現(xiàn)「大一統(tǒng)」

在輸入6張 OpenAI 的 logo圖后,GPT-4o 能三維重建出其立體動圖。

免費GPT-4o來襲,音頻視覺文本實現(xiàn)「大一統(tǒng)」

甚至還可以讓 GPT-4o 幫忙把 logo 印在杯墊上。

免費GPT-4o來襲,音頻視覺文本實現(xiàn)「大一統(tǒng)」


「今天,有 1 億人使用 ChatGPT 來創(chuàng)作、工作、學(xué)習(xí),以前這些高級工具只對付費用戶可用,但現(xiàn)在,有了 GPT-4o 的效率,我們可以將這些工具帶給每個人?!筂ira Murati 如是說道。


寫在后面

發(fā)布會之外,OpenAI 研究員 William Fedus 透露,此前在大模型競技場參與A/B測試并碾壓全場的模型「im-also-a-good-gpt2-chatbot」,就是本次登場的 GPT-4o 。

免費GPT-4o來襲,音頻視覺文本實現(xiàn)「大一統(tǒng)」


截至2024年3月,OpenAI 在不到十年的運營時間內(nèi),已經(jīng)完成了10輪的融資,累計籌集資金超過了140億美元,其估值在2月的融資交易中已經(jīng)飆升至800億美元。

伴隨著狂飆的市值,OpenAI 的技術(shù)版圖已經(jīng)橫跨了多個 AI 的關(guān)鍵領(lǐng)域,形成了一個全面而深入的產(chǎn)品矩陣。

API 產(chǎn)品線提供了包括 GPT 模型、DALL·E 模型、Whisper 語音識別模型在內(nèi)的多樣化服務(wù),并通過對話、量化、分析、微調(diào)等高級功能,為開發(fā)者提供技術(shù)支持;ChatGPT 為核心的產(chǎn)品線分別推出了個人版和企業(yè)版。

在音樂生成領(lǐng)域,OpenAI 也有一定的技術(shù)積累,比如經(jīng)過訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò) MuseNet,可預(yù)測并生成 MIDI 音樂文件中的后續(xù)音符,以及能生成帶人聲音樂的開源算法 Jukebox。

再加上年初春節(jié)假期期間毫無征兆推出的 AI 視頻生成大模型 Sora,更是讓網(wǎng)友們感嘆「現(xiàn)實,不存在了?!?/p>

毋庸置疑,OpenAI 是大模型這場擂臺賽中當(dāng)之無愧的擂主,其技術(shù)與產(chǎn)品的迭代更是整個行業(yè)的風(fēng)向標(biāo),不少大模型創(chuàng)業(yè)者都遇過「OpenAI 不做,沒人投;OpenAI 一做,人人投」的融資奇觀。

但隨著 Claude 3 和 Llama 3 的緊追與 GPT Store 上線2個月慘遭「滑鐵盧」,不少 AI 行業(yè)從業(yè)者開始對 OpenAI 祛魅,認(rèn)為「大模型護(hù)城河很淺,一年就趕上了?!?/p>

現(xiàn)在看來,OpenAI 果然還是 OpenAI。

本文雷峰網(wǎng)(公眾號:雷峰網(wǎng))作者 anna042023 將持續(xù)關(guān)注AI大模型領(lǐng)域的人事、企業(yè)、商業(yè)應(yīng)用以及行業(yè)發(fā)展趨勢,歡迎添加雷峰網(wǎng)作者交流,互通有無。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

免費GPT-4o來襲,音頻視覺文本實現(xiàn)「大一統(tǒng)」

分享:
相關(guān)文章

資深編輯

關(guān)注具身智能。
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說