Claude 3 驚喜上線：多模態(tài)能力比肩GPT-4V

本文作者：賴文昕

2024-04-02 10:29

導(dǎo)語：導(dǎo)語：Anthropic 強(qiáng)勢(shì)歸來。

作者：賴文昕、郭思

編輯：陳彩嫻

過去不到一個(gè)月，OpenAI 扔出 Sora 這個(gè)重磅炸彈后成為全球焦點(diǎn)，不斷推出的視頻更是賺足眼球、熱度不減。昨晚，Anthropic 突然驚喜上線，時(shí)隔八個(gè)月攜著 Claude 3 走來，讓世界再次將目光聚焦到這一個(gè)被視為 ChatGPT 強(qiáng)大競(jìng)爭(zhēng)對(duì)手之一的多模態(tài)模型。

響應(yīng)速度達(dá)即時(shí)水準(zhǔn)，長文本與多模態(tài)雙拳出擊

據(jù) Anthropic 官方表示，Claude 3 是針對(duì)不同功能的一個(gè)模型系列，分別是：Opus、Sonnet 和 Haiku。盡管 Anthropic 并未給出 Claude 3 模型的具體參數(shù)，但也公布了此三個(gè)版本在各自性能和適配的任務(wù)上的差異，具體表現(xiàn)為：

Claude 3 Opus——最智能的模型，可跨 API 和數(shù)據(jù)庫規(guī)劃和編碼，在藥物研發(fā)、市場(chǎng)分析等高度復(fù)雜的任務(wù)上具有最佳性能。
Claude 3 Sonnet——平衡智能和速度，其高耐用性更適合企業(yè)，更實(shí)惠和適合規(guī)模化。
Claude 3 Haiku——最快、最緊湊的模型，具有近乎即時(shí)的響應(yīng)能力，能提供無縫問答體驗(yàn)。

目前，Opus 和 Sonnet 現(xiàn)已可以使用，而 Claude 的 API 也已在159 個(gè)國家/地區(qū)廣泛開放。其中，開發(fā)者們可以在官網(wǎng)上免費(fèi)體驗(yàn)最經(jīng)濟(jì)實(shí)惠的 Sonnet，而 Opus 則需要訂閱 Claude Pro 后付費(fèi)使用。

與大半年前發(fā)布的 Claude 2 相比， Claude 3 有什么令人矚目的進(jìn)步呢？

首先，Claude 3 響應(yīng)速度接近即時(shí)。

Claude 3 模型支持實(shí)時(shí)對(duì)話、自動(dòng)完成和數(shù)據(jù)提取任務(wù)。對(duì)于絕大多數(shù)工作負(fù)載，Claude 3 Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍，且智能水平更高。Sonnet 擅長執(zhí)行需要快速響應(yīng)的任務(wù)，例如知識(shí)檢索或銷售自動(dòng)化。Opus 的速度與 Claude 2 和 2.1 相似，但擁有更高的智能水平。而 Haiku 作為速度最快且最具成本效益的型號(hào)，它可以在不到三秒的時(shí)間內(nèi)閱讀 arXiv 上包含圖表和圖形的信息和數(shù)據(jù)密集的研究論文（約 10k tokens）。

其次，Claude 3 大大增強(qiáng)了對(duì)語境的理解，減少了不必要的拒絕。

Anthropic 在語境理解的領(lǐng)域取得了有顯著進(jìn)展。與前幾代模型相比，Claude 3 Opus、Sonnet 和 Haiku 發(fā)出拒絕回答提示的可能性明顯降低，展現(xiàn)出 Claude 3 模型家族能對(duì)請(qǐng)求表現(xiàn)出更細(xì)致的理解，能夠識(shí)別真正的傷害，并且拒絕回答無害提示的頻率要少得多。

Claude 3 驚喜上線：多模態(tài)能力比肩GPT-4V

另一方面，Claude 3 還提高了回答的準(zhǔn)確性。Anthropic 官方表示，他們使用了大量復(fù)雜的事實(shí)問題來針對(duì)解決當(dāng)前模型中已知的弱點(diǎn)，將答案分為正確答案、錯(cuò)誤答案（或幻覺）和承認(rèn)不確定性，其中模型“承認(rèn)不確定性”表示它不知道答案，而不是提供不正確的信息。

Claude 3 驚喜上線：多模態(tài)能力比肩GPT-4V

與 Claude 2.1 相比，Opus 在具有挑戰(zhàn)性的開放式問題上的準(zhǔn)確性提高了一倍，同時(shí)也減少了錯(cuò)誤答案的水平。另外， Anthropic 很快還將在 Claude 3 模型中啟用引用功能，以便用戶可以指向參考材料中的精確句子來驗(yàn)證他們的答案。

盡管由 Sora 引發(fā)的文生視頻熱潮似乎已成為2024年的新趨勢(shì)，但毋庸置疑的是，以長文本為核心的大語言模型依舊是各大科技巨頭的兵家必爭(zhēng)之地。

同老對(duì)手OpenAI GPT-4與谷歌 Gemini Pro相比，Claude 3 的優(yōu)勢(shì)又在哪里呢？

Claude 本次更新的一大亮點(diǎn)，在于長文本能力的升級(jí)以及對(duì)多模態(tài)能力的突破。

Anthropic 在推出 Claude 3 時(shí)升級(jí)了其復(fù)雜視覺功能，使其領(lǐng)先于其他模型，多模態(tài)能力比肩GPT-4V。

Claude 3 可以處理各種視覺格式，包括照片、圖表、圖形和技術(shù)圖表，在數(shù)學(xué)推理、文檔視覺、科學(xué)圖表等各方面性能超越 GPT-4V，能讓企業(yè)客戶的知識(shí)庫高達(dá) 50% 以各種格式編碼，例如 PDF、流程圖或演示幻燈片。

Claude 3 驚喜上線：多模態(tài)能力比肩GPT-4V

至于在原本就擁有的長文本分析優(yōu)勢(shì)上， Anthropic 也做出了升級(jí)。

Claude 3 提升了上下文對(duì)話窗口，最高達(dá)到200k。值得一提的是，它還具有超強(qiáng)的回憶能力。Claude 3 Opus 能夠 “大海撈針”（NIAH），通過將一個(gè)特定的句子（即“針”）隱藏在一堆看似雜亂無章的文檔（即“大海”）中，然后詢問一個(gè)只有通過找到那個(gè)“針”才能回答的問題，從而考察模型的信息回憶能力。

Claude 3 驚喜上線：多模態(tài)能力比肩GPT-4V

研發(fā)團(tuán)隊(duì)通過在每個(gè)提示中使用 30 個(gè)隨機(jī)“針”對(duì)其中之一并在不同的眾包文檔庫上進(jìn)行測(cè)試，增強(qiáng)了該基準(zhǔn)的穩(wěn)健性。測(cè)試證明，Claude 3 Opus 不僅實(shí)現(xiàn)了近乎完美的召回率，超過 99% 的準(zhǔn)確率，而且在某些情況下，它甚至可以通過識(shí)別“針”這句話似乎是人類人為插入到原文中來識(shí)別評(píng)估本身的局限性。

英偉達(dá)首席AI科學(xué)家 Jim Fan 在 Claude 3 發(fā)布后立即表示其他LLM也應(yīng)該像 Anthropic一樣出擊金融、醫(yī)藥等需要專業(yè)意見和優(yōu)質(zhì)報(bào)告的領(lǐng)域：

Claude 3 驚喜上線：多模態(tài)能力比肩GPT-4V

Claude 3 的發(fā)布極為低調(diào)，直接在X上丟出一個(gè)鏈接。而最讓人眼前一亮的便是，Claude 3發(fā)布后即提供了免費(fèi)試用的機(jī)會(huì)，此舉吸引了大量用戶積極參與體驗(yàn)。在社交媒體X上，一位博主發(fā)起了一場(chǎng)有趣的測(cè)試挑戰(zhàn)，上傳了一張酷狗的圖片，并使用免費(fèi)版Claude 3進(jìn)行嘗試，以檢驗(yàn)其對(duì)圖像內(nèi)容的理解和描述能力。最終結(jié)果顯示，相較于ChatGPT，Claude 3對(duì)于該圖片信息的解讀更詳盡、貼切。

Claude 3 驚喜上線：多模態(tài)能力比肩GPT-4V

而另一位博主則對(duì)一段復(fù)雜的英文內(nèi)容進(jìn)行了測(cè)試翻譯，結(jié)果顯示Claude在該任務(wù)上的表現(xiàn)優(yōu)于GPT-4。尤其值得一提的是，Claude具備一項(xiàng)獨(dú)特功能，即能夠主動(dòng)對(duì)未經(jīng)排版的文本進(jìn)行合理分段和格式化處理，顯著提升了閱讀體驗(yàn)，而這項(xiàng)能力是GPT-4所不具備的。此外，Claude的翻譯輸出內(nèi)容也比GPT-4更為詳盡。

接下來，在設(shè)計(jì)稿組件截圖還原的挑戰(zhàn)中，該博主特別強(qiáng)調(diào)了風(fēng)格一致性的重要性，Claude對(duì)此展現(xiàn)了卓越的處理能力，對(duì)于復(fù)雜的設(shè)計(jì)元素和細(xì)節(jié)把控得恰到好處，高度接近原始設(shè)計(jì)稿的要求。相比之下，GPT-4在此類任務(wù)上一直難以達(dá)到同樣水準(zhǔn)。

最后，在多模態(tài)場(chǎng)景下，博主讓Claude解讀一篇論文的部分內(nèi)容，其分析邏輯清晰、準(zhǔn)確。盡管如此，在信息豐富度方面，Claude的表現(xiàn)略遜于GPT-4，尚有提升空間，特別是在多模態(tài)信息整合與呈現(xiàn)的能力上，仍有待進(jìn)一步加強(qiáng)。

Claude 3 驚喜上線：多模態(tài)能力比肩GPT-4V

雙管齊下鎖定企業(yè)市場(chǎng)：Claude 3的定價(jià)策略與安全優(yōu)先理念

Claude 3，這款顛覆了大模型領(lǐng)域格局的AI產(chǎn)品背后母公司Anthropic，是一家戰(zhàn)略上秉承謹(jǐn)慎與安全優(yōu)先原則的初創(chuàng)企業(yè)。自公司創(chuàng)立之日起，其核心科研工作始終聚焦在人工智能治理和模型安全性的強(qiáng)化上。即使面對(duì)2023年ChatGPT在全球范圍內(nèi)引發(fā)的性能競(jìng)賽熱潮，Anthropic并未盲目追求技術(shù)性能指標(biāo)上的超越，而是堅(jiān)守對(duì)AI安全的重視。

去年9月，Anthropic獲得了亞馬遜高達(dá)40 億美元，約 280 億人民幣的重磅投資。獲得巨頭青睞的原因，一方面是來其巨卓越的技術(shù)能力，另一方面，業(yè)界普遍認(rèn)同，該公司的技術(shù)創(chuàng)新策略首先是確保服務(wù)于構(gòu)建可靠且安全的人工智能框架，其次才是對(duì)技術(shù)極限進(jìn)行探索和突破。

這意味著，在追求卓越的同時(shí)，Anthropic始終堅(jiān)持將安全性作為其AI產(chǎn)品和技術(shù)研發(fā)的基石。

其創(chuàng)始人 Daniela Amodei 與 Dario Amodei 是兩兄妹。

值得一提的是，Daniela Amodei 是該公司的總裁，曾負(fù)責(zé)監(jiān)督 OpenAI 的政策和安全團(tuán)隊(duì)在加入 OpenAI 之前，她曾公開表示 Anthropic 的安全第一政策是其主要差異化優(yōu)勢(shì)之一。這也決定了Claude系列以安全為首的技術(shù)基因。

在Claude3 技術(shù)文檔中，我們也看到了Anthropic對(duì)安全理念的一以貫之。

Claude 3團(tuán)隊(duì)表明：現(xiàn)階段已經(jīng)組建了多個(gè)專門團(tuán)隊(duì)，負(fù)責(zé)監(jiān)控和減少一系列廣泛的風(fēng)險(xiǎn)，包括錯(cuò)誤信息、兒童性剝削材料（CSAM）、生物濫用、選舉干預(yù)以及自主復(fù)制能力等。并將持續(xù)開發(fā)如憲法式 AI 等方法，以提升模型的安全性和透明度，并對(duì)模型進(jìn)行了調(diào)整優(yōu)化，以降低由新型模態(tài)引發(fā)的隱私問題。

對(duì)于日益復(fù)雜的模型中所存在的偏見問題，根據(jù)問題回答偏見基準(zhǔn)測(cè)試（BBQ），Claude 3 模型相比之前的產(chǎn)品表現(xiàn)出更少的偏見。

團(tuán)隊(duì)將繼續(xù)致力于推動(dòng)減少偏見并促進(jìn)模型更大程度中立性的技術(shù)進(jìn)步，確保它們不會(huì)偏向任何特定的政治立場(chǎng)。

Claude 3 驚喜上線：多模態(tài)能力比肩GPT-4V

實(shí)質(zhì)上，關(guān)于AI 安全的問題，在此前一直是一個(gè)爭(zhēng)議的熱點(diǎn)。曾獲得圖靈獎(jiǎng)、被稱為“AI 教父”的加拿大計(jì)算機(jī)科學(xué)家 Yoshua Bengio就曾呼吁，AI 領(lǐng)域被少數(shù)科技公司控制的可能性，將會(huì)是該技術(shù)帶來生存風(fēng)險(xiǎn)之后的“第二大問題”。

Anthropic 的創(chuàng)始團(tuán)隊(duì)從 OpenAI 出來，并且參加過 GPT-3 的核心研發(fā)工作，目前也許是除了微軟與 OpenAI 之外，最了解 OpenAI 與 GPT 系列大模型的公司。而他們選擇的道路與Open AI相比也正好印證了技術(shù)路線的分歧：到底是性能先行還是兼顧技術(shù)治理。

這也是他們?cè)诎l(fā)展理念上的終極競(jìng)爭(zhēng)。

而關(guān)于Claude 3 帶給行業(yè)接下來的影響，除了對(duì)于Open AI 霸主的地位的沖擊外，有行業(yè)人士直接表示，行業(yè)有望很快從模型競(jìng)爭(zhēng)轉(zhuǎn)變?yōu)楣ぷ髁鞲?jìng)爭(zhēng)。

該觀點(diǎn)的形成與Claude 3系列模型在定價(jià)策略上的與眾不同相關(guān)。目前，Claude 3系列中最頂級(jí)版本Claude 3 Opus的價(jià)格設(shè)定凸顯其高端定位，對(duì)于每100萬條token的使用費(fèi)用為15美元，明顯高于GPT-4 Turbo的10美元收費(fèi)標(biāo)準(zhǔn)。

然而，Anthropic也透露，Claude 3系列中性能相對(duì)較低的Sonnet和Haiku版本，在處理相同數(shù)據(jù)量時(shí)的收費(fèi)至少比Claude 3 Opus低五倍。

舉例來說，如果用Claude來創(chuàng)建電子表格并比較其不同層級(jí)模型與GPT-4 Turbo以及GPT-3.5的成本，可以發(fā)現(xiàn)，在高端產(chǎn)品線上，Claude 3 Opus在輸入和輸出成本上均超過了GPT-4 Turbo；但在小型或中低端模型方面，例如Claude 3 Haiku的定價(jià)則較GPT-3.5-turbo-0125更為經(jīng)濟(jì)實(shí)惠。

這種價(jià)格差異使得業(yè)界開始討論小規(guī)模模型的市場(chǎng)前景，有人甚至預(yù)測(cè)小模型可能在未來市場(chǎng)競(jìng)爭(zhēng)中逐漸淡出。

與此同時(shí)，Anthropic對(duì)AI安全性的高度重視及定價(jià)策略上的親民設(shè)計(jì)，顯示了該公司商業(yè)模式上的獨(dú)特布局，即更傾向于瞄準(zhǔn)具有較高付費(fèi)能力的企業(yè)級(jí)客戶群體。

Claude 3發(fā)布后，市場(chǎng)上對(duì)下一代大模型GPT-5的期待聲浪愈發(fā)高漲，許多業(yè)內(nèi)專家認(rèn)為，這不僅標(biāo)志著Claude的崛起時(shí)刻，同時(shí)也是Open AI展現(xiàn)實(shí)力的關(guān)鍵階段。有網(wǎng)友樂觀預(yù)計(jì)，也許不久就能見證GPT-4.5的誕生。雖然最終結(jié)果有待觀察，但可以預(yù)見的是，這場(chǎng)圍繞大模型技術(shù)的競(jìng)爭(zhēng)即將迎來新一輪的升級(jí)與高潮。

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))AI 科技評(píng)論將持續(xù)關(guān)注大模型領(lǐng)域動(dòng)態(tài)，歡迎添加anna042023和lionceau2046，交流認(rèn)知，互通有無

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

賴文昕

資深編輯

關(guān)注具身智能。

發(fā)私信

當(dāng)月熱門文章