0
本文作者: 賴(lài)文昕 | 2024-04-02 10:29 |
作者:賴(lài)文昕、郭思
編輯:陳彩嫻
過(guò)去不到一個(gè)月,OpenAI 扔出 Sora 這個(gè)重磅炸彈后成為全球焦點(diǎn),不斷推出的視頻更是賺足眼球、熱度不減。昨晚,Anthropic 突然驚喜上線,時(shí)隔八個(gè)月攜著 Claude 3 走來(lái),讓世界再次將目光聚焦到這一個(gè)被視為 ChatGPT 強(qiáng)大競(jìng)爭(zhēng)對(duì)手之一的多模態(tài)模型。
響應(yīng)速度達(dá)即時(shí)水準(zhǔn),長(zhǎng)文本與多模態(tài)雙拳出擊
據(jù) Anthropic 官方表示,Claude 3 是針對(duì)不同功能的一個(gè)模型系列,分別是:Opus、Sonnet 和 Haiku。盡管 Anthropic 并未給出 Claude 3 模型的具體參數(shù),但也公布了此三個(gè)版本在各自性能和適配的任務(wù)上的差異,具體表現(xiàn)為:
Claude 3 Opus——最智能的模型,可跨 API 和數(shù)據(jù)庫(kù)規(guī)劃和編碼,在藥物研發(fā)、市場(chǎng)分析等高度復(fù)雜的任務(wù)上具有最佳性能。
Claude 3 Sonnet——平衡智能和速度,其高耐用性更適合企業(yè),更實(shí)惠和適合規(guī)?;?/p>
Claude 3 Haiku——最快、最緊湊的模型,具有近乎即時(shí)的響應(yīng)能力,能提供無(wú)縫問(wèn)答體驗(yàn)。
目前,Opus 和 Sonnet 現(xiàn)已可以使用,而 Claude 的 API 也已在159 個(gè)國(guó)家/地區(qū)廣泛開(kāi)放。其中,開(kāi)發(fā)者們可以在官網(wǎng)上免費(fèi)體驗(yàn)最經(jīng)濟(jì)實(shí)惠的 Sonnet,而 Opus 則需要 訂閱 Claude Pro 后付費(fèi)使用。
與大半年前發(fā)布的 Claude 2 相比, Claude 3 有什么令人矚目的進(jìn)步呢?
首先,Claude 3 響應(yīng)速度接近即時(shí)。
Claude 3 模型支持實(shí)時(shí)對(duì)話、自動(dòng)完成和數(shù)據(jù)提取任務(wù)。對(duì)于絕大多數(shù)工作負(fù)載,Claude 3 Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高。Sonnet 擅長(zhǎng)執(zhí)行需要快速響應(yīng)的任務(wù),例如知識(shí)檢索或銷(xiāo)售自動(dòng)化。Opus 的速度與 Claude 2 和 2.1 相似,但擁有更高的智能水平。而 Haiku 作為速度最快且最具成本效益的型號(hào),它可以在不到三秒的時(shí)間內(nèi)閱讀 arXiv 上包含圖表和圖形的信息和數(shù)據(jù)密集的研究論文(約 10k tokens)。
其次,Claude 3 大大增強(qiáng)了對(duì)語(yǔ)境的理解,減少了不必要的拒絕。
Anthropic 在語(yǔ)境理解的領(lǐng)域取得了有顯著進(jìn)展。與前幾代模型相比,Claude 3 Opus、Sonnet 和 Haiku 發(fā)出拒絕回答提示的可能性明顯降低,展現(xiàn)出 Claude 3 模型家族能對(duì)請(qǐng)求表現(xiàn)出更細(xì)致的理解,能夠識(shí)別真正的傷害,并且拒絕回答無(wú)害提示的頻率要少得多。
另一方面,Claude 3 還提高了回答的準(zhǔn)確性。Anthropic 官方表示,他們使用了大量復(fù)雜的事實(shí)問(wèn)題來(lái)針對(duì)解決當(dāng)前模型中已知的弱點(diǎn),將答案分為正確答案、錯(cuò)誤答案(或幻覺(jué))和承認(rèn)不確定性,其中模型“承認(rèn)不確定性”表示它不知道答案,而不是提供不正確的信息。
與 Claude 2.1 相比,Opus 在具有挑戰(zhàn)性的開(kāi)放式問(wèn)題上的準(zhǔn)確性提高了一倍,同時(shí)也減少了錯(cuò)誤答案的水平。另外, Anthropic 很快還將在 Claude 3 模型中啟用引用功能,以便用戶可以指向參考材料中的精確句子來(lái)驗(yàn)證他們的答案。
盡管由 Sora 引發(fā)的文生視頻熱潮似乎已成為2024年的新趨勢(shì),但毋庸置疑的是,以長(zhǎng)文本為核心的大語(yǔ)言模型依舊是各大科技巨頭的兵家必爭(zhēng)之地。
同老對(duì)手OpenAI GPT-4與谷歌 Gemini Pro相比,Claude 3 的優(yōu)勢(shì)又在哪里呢?
Claude 本次更新的一大亮點(diǎn),在于長(zhǎng)文本能力的升級(jí)以及對(duì)多模態(tài)能力的突破。
Anthropic 在推出 Claude 3 時(shí)升級(jí)了其復(fù)雜視覺(jué)功能,使其領(lǐng)先于其他模型,多模態(tài)能力比肩GPT-4V。
Claude 3 可以處理各種視覺(jué)格式,包括照片、圖表、圖形和技術(shù)圖表,在數(shù)學(xué)推理、文檔視覺(jué)、科學(xué)圖表等各方面性能超越 GPT-4V,能讓企業(yè)客戶的知識(shí)庫(kù)高達(dá) 50% 以各種格式編碼,例如 PDF、流程圖或演示幻燈片。
至于在原本就擁有的長(zhǎng)文本分析優(yōu)勢(shì)上, Anthropic 也做出了升級(jí)。
Claude 3 提升了上下文對(duì)話窗口,最高達(dá)到200k。值得一提的是,它還具有超強(qiáng)的回憶能力。Claude 3 Opus 能夠 “大海撈針”(NIAH),通過(guò)將一個(gè)特定的句子(即“針”)隱藏在一堆看似雜亂無(wú)章的文檔(即“大?!保┲?,然后詢問(wèn)一個(gè)只有通過(guò)找到那個(gè)“針”才能回答的問(wèn)題,從而考察模型的信息回憶能力。
研發(fā)團(tuán)隊(duì)通過(guò)在每個(gè)提示中使用 30 個(gè)隨機(jī)“針”對(duì)其中之一并在不同的眾包文檔庫(kù)上進(jìn)行測(cè)試,增強(qiáng)了該基準(zhǔn)的穩(wěn)健性。測(cè)試證明,Claude 3 Opus 不僅實(shí)現(xiàn)了近乎完美的召回率,超過(guò) 99% 的準(zhǔn)確率,而且在某些情況下,它甚至可以通過(guò)識(shí)別“針”這句話似乎是人類(lèi)人為插入到原文中來(lái)識(shí)別評(píng)估本身的局限性。
英偉達(dá)首席AI科學(xué)家 Jim Fan 在 Claude 3 發(fā)布后立即表示其他LLM也應(yīng)該像 Anthropic一樣出擊金融、醫(yī)藥等需要專(zhuān)業(yè)意見(jiàn)和優(yōu)質(zhì)報(bào)告的領(lǐng)域:
Claude 3 的發(fā)布極為低調(diào),直接在X上丟出一個(gè)鏈接。而最讓人眼前一亮的便是,Claude 3發(fā)布后即提供了免費(fèi)試用的機(jī)會(huì),此舉吸引了大量用戶積極參與體驗(yàn)。在社交媒體X上,一位博主發(fā)起了一場(chǎng)有趣的測(cè)試挑戰(zhàn),上傳了一張酷狗的圖片,并使用免費(fèi)版Claude 3進(jìn)行嘗試,以檢驗(yàn)其對(duì)圖像內(nèi)容的理解和描述能力。最終結(jié)果顯示,相較于ChatGPT,Claude 3對(duì)于該圖片信息的解讀更詳盡、貼切。
而另一位博主則對(duì)一段復(fù)雜的英文內(nèi)容進(jìn)行了測(cè)試翻譯,結(jié)果顯示Claude在該任務(wù)上的表現(xiàn)優(yōu)于GPT-4。尤其值得一提的是,Claude具備一項(xiàng)獨(dú)特功能,即能夠主動(dòng)對(duì)未經(jīng)排版的文本進(jìn)行合理分段和格式化處理,顯著提升了閱讀體驗(yàn),而這項(xiàng)能力是GPT-4所不具備的。此外,Claude的翻譯輸出內(nèi)容也比GPT-4更為詳盡。
接下來(lái),在設(shè)計(jì)稿組件截圖還原的挑戰(zhàn)中,該博主特別強(qiáng)調(diào)了風(fēng)格一致性的重要性,Claude對(duì)此展現(xiàn)了卓越的處理能力,對(duì)于復(fù)雜的設(shè)計(jì)元素和細(xì)節(jié)把控得恰到好處,高度接近原始設(shè)計(jì)稿的要求。相比之下,GPT-4在此類(lèi)任務(wù)上一直難以達(dá)到同樣水準(zhǔn)。
最后,在多模態(tài)場(chǎng)景下,博主讓Claude解讀一篇論文的部分內(nèi)容,其分析邏輯清晰、準(zhǔn)確。盡管如此,在信息豐富度方面,Claude的表現(xiàn)略遜于GPT-4,尚有提升空間,特別是在多模態(tài)信息整合與呈現(xiàn)的能力上,仍有待進(jìn)一步加強(qiáng)。
雙管齊下鎖定企業(yè)市場(chǎng):Claude 3的定價(jià)策略與安全優(yōu)先理念
Claude 3,這款顛覆了大模型領(lǐng)域格局的AI產(chǎn)品背后母公司Anthropic,是一家戰(zhàn)略上秉承謹(jǐn)慎與安全優(yōu)先原則的初創(chuàng)企業(yè)。自公司創(chuàng)立之日起,其核心科研工作始終聚焦在人工智能治理和模型安全性的強(qiáng)化上。即使面對(duì)2023年ChatGPT在全球范圍內(nèi)引發(fā)的性能競(jìng)賽熱潮,Anthropic并未盲目追求技術(shù)性能指標(biāo)上的超越,而是堅(jiān)守對(duì)AI安全的重視。
去年9月,Anthropic獲得了亞馬遜高達(dá)40 億美元,約 280 億人民幣的重磅投資。獲得巨頭青睞的原因,一方面是來(lái)其巨卓越的技術(shù)能力,另一方面,業(yè)界普遍認(rèn)同,該公司的技術(shù)創(chuàng)新策略首先是確保服務(wù)于構(gòu)建可靠且安全的人工智能框架,其次才是對(duì)技術(shù)極限進(jìn)行探索和突破。
這意味著,在追求卓越的同時(shí),Anthropic始終堅(jiān)持將安全性作為其AI產(chǎn)品和技術(shù)研發(fā)的基石。
其創(chuàng)始人 Daniela Amodei 與 Dario Amodei 是兩兄妹。
值得一提的是,Daniela Amodei 是該公司的總裁,曾負(fù)責(zé)監(jiān)督 OpenAI 的政策和安全團(tuán)隊(duì)在加入 OpenAI 之前,她曾公開(kāi)表示 Anthropic 的安全第一政策是其主要差異化優(yōu)勢(shì)之一。這也決定了Claude系列以安全為首的技術(shù)基因。
在Claude3 技術(shù)文檔中,我們也看到了Anthropic對(duì)安全理念的一以貫之。
Claude 3團(tuán)隊(duì)表明:現(xiàn)階段已經(jīng)組建了多個(gè)專(zhuān)門(mén)團(tuán)隊(duì),負(fù)責(zé)監(jiān)控和減少一系列廣泛的風(fēng)險(xiǎn),包括錯(cuò)誤信息、兒童性剝削材料(CSAM)、生物濫用、選舉干預(yù)以及自主復(fù)制能力等。并將持續(xù)開(kāi)發(fā)如憲法式 AI 等方法,以提升模型的安全性和透明度,并對(duì)模型進(jìn)行了調(diào)整優(yōu)化,以降低由新型模態(tài)引發(fā)的隱私問(wèn)題。
對(duì)于日益復(fù)雜的模型中所存在的偏見(jiàn)問(wèn)題,根據(jù)問(wèn)題回答偏見(jiàn)基準(zhǔn)測(cè)試(BBQ),Claude 3 模型相比之前的產(chǎn)品表現(xiàn)出更少的偏見(jiàn)。
團(tuán)隊(duì)將繼續(xù)致力于推動(dòng)減少偏見(jiàn)并促進(jìn)模型更大程度中立性的技術(shù)進(jìn)步,確保它們不會(huì)偏向任何特定的政治立場(chǎng)。
實(shí)質(zhì)上,關(guān)于AI 安全的問(wèn)題,在此前一直是一個(gè)爭(zhēng)議的熱點(diǎn)。曾獲得圖靈獎(jiǎng)、被稱(chēng)為“AI 教父”的加拿大計(jì)算機(jī)科學(xué)家 Yoshua Bengio就曾呼吁,AI 領(lǐng)域被少數(shù)科技公司控制的可能性,將會(huì)是該技術(shù)帶來(lái)生存風(fēng)險(xiǎn)之后的“第二大問(wèn)題”。
Anthropic 的創(chuàng)始團(tuán)隊(duì)從 OpenAI 出來(lái),并且參加過(guò) GPT-3 的核心研發(fā)工作,目前也許是除了微軟與 OpenAI 之外,最了解 OpenAI 與 GPT 系列大模型的公司。而他們選擇的道路與Open AI相比也正好印證了技術(shù)路線的分歧:到底是性能先行還是兼顧技術(shù)治理。
這也是他們?cè)诎l(fā)展理念上的終極競(jìng)爭(zhēng)。
而關(guān)于Claude 3 帶給行業(yè)接下來(lái)的影響,除了對(duì)于Open AI 霸主的地位的沖擊外,有行業(yè)人士直接表示,行業(yè)有望很快從模型競(jìng)爭(zhēng)轉(zhuǎn)變?yōu)楣ぷ髁鞲?jìng)爭(zhēng)。
該觀點(diǎn)的形成與Claude 3系列模型在定價(jià)策略上的與眾不同相關(guān)。目前,Claude 3系列中最頂級(jí)版本Claude 3 Opus的價(jià)格設(shè)定凸顯其高端定位,對(duì)于每100萬(wàn)條token的使用費(fèi)用為15美元,明顯高于GPT-4 Turbo的10美元收費(fèi)標(biāo)準(zhǔn)。
然而,Anthropic也透露,Claude 3系列中性能相對(duì)較低的Sonnet和Haiku版本,在處理相同數(shù)據(jù)量時(shí)的收費(fèi)至少比Claude 3 Opus低五倍。
舉例來(lái)說(shuō),如果用Claude來(lái)創(chuàng)建電子表格并比較其不同層級(jí)模型與GPT-4 Turbo以及GPT-3.5的成本,可以發(fā)現(xiàn),在高端產(chǎn)品線上,Claude 3 Opus在輸入和輸出成本上均超過(guò)了GPT-4 Turbo;但在小型或中低端模型方面,例如Claude 3 Haiku的定價(jià)則較GPT-3.5-turbo-0125更為經(jīng)濟(jì)實(shí)惠。
這種價(jià)格差異使得業(yè)界開(kāi)始討論小規(guī)模模型的市場(chǎng)前景,有人甚至預(yù)測(cè)小模型可能在未來(lái)市場(chǎng)競(jìng)爭(zhēng)中逐漸淡出。
與此同時(shí),Anthropic對(duì)AI安全性的高度重視及定價(jià)策略上的親民設(shè)計(jì),顯示了該公司商業(yè)模式上的獨(dú)特布局,即更傾向于瞄準(zhǔn)具有較高付費(fèi)能力的企業(yè)級(jí)客戶群體。
Claude 3發(fā)布后,市場(chǎng)上對(duì)下一代大模型GPT-5的期待聲浪愈發(fā)高漲,許多業(yè)內(nèi)專(zhuān)家認(rèn)為,這不僅標(biāo)志著Claude的崛起時(shí)刻,同時(shí)也是Open AI展現(xiàn)實(shí)力的關(guān)鍵階段。有網(wǎng)友樂(lè)觀預(yù)計(jì),也許不久就能見(jiàn)證GPT-4.5的誕生。雖然最終結(jié)果有待觀察,但可以預(yù)見(jiàn)的是,這場(chǎng)圍繞大模型技術(shù)的競(jìng)爭(zhēng)即將迎來(lái)新一輪的升級(jí)與高潮。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))AI 科技評(píng)論將持續(xù)關(guān)注大模型領(lǐng)域動(dòng)態(tài),歡迎添加anna042023和lionceau2046,交流認(rèn)知,互通有無(wú)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。