0
作者:賴文昕、郭思
編輯:陳彩嫻
過去不到一個月,OpenAI 扔出 Sora 這個重磅炸彈后成為全球焦點,不斷推出的視頻更是賺足眼球、熱度不減。昨晚,Anthropic 突然驚喜上線,時隔八個月攜著 Claude 3 走來,讓世界再次將目光聚焦到這一個被視為 ChatGPT 強大競爭對手之一的多模態(tài)模型。
響應速度達即時水準,長文本與多模態(tài)雙拳出擊
據 Anthropic 官方表示,Claude 3 是針對不同功能的一個模型系列,分別是:Opus、Sonnet 和 Haiku。盡管 Anthropic 并未給出 Claude 3 模型的具體參數,但也公布了此三個版本在各自性能和適配的任務上的差異,具體表現為:
Claude 3 Opus——最智能的模型,可跨 API 和數據庫規(guī)劃和編碼,在藥物研發(fā)、市場分析等高度復雜的任務上具有最佳性能。
Claude 3 Sonnet——平衡智能和速度,其高耐用性更適合企業(yè),更實惠和適合規(guī)?;?。
Claude 3 Haiku——最快、最緊湊的模型,具有近乎即時的響應能力,能提供無縫問答體驗。
目前,Opus 和 Sonnet 現已可以使用,而 Claude 的 API 也已在159 個國家/地區(qū)廣泛開放。其中,開發(fā)者們可以在官網上免費體驗最經濟實惠的 Sonnet,而 Opus 則需要 訂閱 Claude Pro 后付費使用。
與大半年前發(fā)布的 Claude 2 相比, Claude 3 有什么令人矚目的進步呢?
首先,Claude 3 響應速度接近即時。
Claude 3 模型支持實時對話、自動完成和數據提取任務。對于絕大多數工作負載,Claude 3 Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高。Sonnet 擅長執(zhí)行需要快速響應的任務,例如知識檢索或銷售自動化。Opus 的速度與 Claude 2 和 2.1 相似,但擁有更高的智能水平。而 Haiku 作為速度最快且最具成本效益的型號,它可以在不到三秒的時間內閱讀 arXiv 上包含圖表和圖形的信息和數據密集的研究論文(約 10k tokens)。
其次,Claude 3 大大增強了對語境的理解,減少了不必要的拒絕。
Anthropic 在語境理解的領域取得了有顯著進展。與前幾代模型相比,Claude 3 Opus、Sonnet 和 Haiku 發(fā)出拒絕回答提示的可能性明顯降低,展現出 Claude 3 模型家族能對請求表現出更細致的理解,能夠識別真正的傷害,并且拒絕回答無害提示的頻率要少得多。
另一方面,Claude 3 還提高了回答的準確性。Anthropic 官方表示,他們使用了大量復雜的事實問題來針對解決當前模型中已知的弱點,將答案分為正確答案、錯誤答案(或幻覺)和承認不確定性,其中模型“承認不確定性”表示它不知道答案,而不是提供不正確的信息。
與 Claude 2.1 相比,Opus 在具有挑戰(zhàn)性的開放式問題上的準確性提高了一倍,同時也減少了錯誤答案的水平。另外, Anthropic 很快還將在 Claude 3 模型中啟用引用功能,以便用戶可以指向參考材料中的精確句子來驗證他們的答案。
盡管由 Sora 引發(fā)的文生視頻熱潮似乎已成為2024年的新趨勢,但毋庸置疑的是,以長文本為核心的大語言模型依舊是各大科技巨頭的兵家必爭之地。
同老對手OpenAI GPT-4與谷歌 Gemini Pro相比,Claude 3 的優(yōu)勢又在哪里呢?
Claude 本次更新的一大亮點,在于長文本能力的升級以及對多模態(tài)能力的突破。
Anthropic 在推出 Claude 3 時升級了其復雜視覺功能,使其領先于其他模型,多模態(tài)能力比肩GPT-4V。
Claude 3 可以處理各種視覺格式,包括照片、圖表、圖形和技術圖表,在數學推理、文檔視覺、科學圖表等各方面性能超越 GPT-4V,能讓企業(yè)客戶的知識庫高達 50% 以各種格式編碼,例如 PDF、流程圖或演示幻燈片。
至于在原本就擁有的長文本分析優(yōu)勢上, Anthropic 也做出了升級。
Claude 3 提升了上下文對話窗口,最高達到200k。值得一提的是,它還具有超強的回憶能力。Claude 3 Opus 能夠 “大海撈針”(NIAH),通過將一個特定的句子(即“針”)隱藏在一堆看似雜亂無章的文檔(即“大?!保┲校缓笤儐栆粋€只有通過找到那個“針”才能回答的問題,從而考察模型的信息回憶能力。
研發(fā)團隊通過在每個提示中使用 30 個隨機“針”對其中之一并在不同的眾包文檔庫上進行測試,增強了該基準的穩(wěn)健性。測試證明,Claude 3 Opus 不僅實現了近乎完美的召回率,超過 99% 的準確率,而且在某些情況下,它甚至可以通過識別“針”這句話似乎是人類人為插入到原文中來識別評估本身的局限性。
英偉達首席AI科學家 Jim Fan 在 Claude 3 發(fā)布后立即表示其他LLM也應該像 Anthropic一樣出擊金融、醫(yī)藥等需要專業(yè)意見和優(yōu)質報告的領域:
Claude 3 的發(fā)布極為低調,直接在X上丟出一個鏈接。而最讓人眼前一亮的便是,Claude 3發(fā)布后即提供了免費試用的機會,此舉吸引了大量用戶積極參與體驗。在社交媒體X上,一位博主發(fā)起了一場有趣的測試挑戰(zhàn),上傳了一張酷狗的圖片,并使用免費版Claude 3進行嘗試,以檢驗其對圖像內容的理解和描述能力。最終結果顯示,相較于ChatGPT,Claude 3對于該圖片信息的解讀更詳盡、貼切。
而另一位博主則對一段復雜的英文內容進行了測試翻譯,結果顯示Claude在該任務上的表現優(yōu)于GPT-4。尤其值得一提的是,Claude具備一項獨特功能,即能夠主動對未經排版的文本進行合理分段和格式化處理,顯著提升了閱讀體驗,而這項能力是GPT-4所不具備的。此外,Claude的翻譯輸出內容也比GPT-4更為詳盡。
接下來,在設計稿組件截圖還原的挑戰(zhàn)中,該博主特別強調了風格一致性的重要性,Claude對此展現了卓越的處理能力,對于復雜的設計元素和細節(jié)把控得恰到好處,高度接近原始設計稿的要求。相比之下,GPT-4在此類任務上一直難以達到同樣水準。
最后,在多模態(tài)場景下,博主讓Claude解讀一篇論文的部分內容,其分析邏輯清晰、準確。盡管如此,在信息豐富度方面,Claude的表現略遜于GPT-4,尚有提升空間,特別是在多模態(tài)信息整合與呈現的能力上,仍有待進一步加強。
雙管齊下鎖定企業(yè)市場:Claude 3的定價策略與安全優(yōu)先理念
Claude 3,這款顛覆了大模型領域格局的AI產品背后母公司Anthropic,是一家戰(zhàn)略上秉承謹慎與安全優(yōu)先原則的初創(chuàng)企業(yè)。自公司創(chuàng)立之日起,其核心科研工作始終聚焦在人工智能治理和模型安全性的強化上。即使面對2023年ChatGPT在全球范圍內引發(fā)的性能競賽熱潮,Anthropic并未盲目追求技術性能指標上的超越,而是堅守對AI安全的重視。
去年9月,Anthropic獲得了亞馬遜高達40 億美元,約 280 億人民幣的重磅投資。獲得巨頭青睞的原因,一方面是來其巨卓越的技術能力,另一方面,業(yè)界普遍認同,該公司的技術創(chuàng)新策略首先是確保服務于構建可靠且安全的人工智能框架,其次才是對技術極限進行探索和突破。
這意味著,在追求卓越的同時,Anthropic始終堅持將安全性作為其AI產品和技術研發(fā)的基石。
其創(chuàng)始人 Daniela Amodei 與 Dario Amodei 是兩兄妹。
值得一提的是,Daniela Amodei 是該公司的總裁,曾負責監(jiān)督 OpenAI 的政策和安全團隊在加入 OpenAI 之前,她曾公開表示 Anthropic 的安全第一政策是其主要差異化優(yōu)勢之一。這也決定了Claude系列以安全為首的技術基因。
在Claude3 技術文檔中,我們也看到了Anthropic對安全理念的一以貫之。
Claude 3團隊表明:現階段已經組建了多個專門團隊,負責監(jiān)控和減少一系列廣泛的風險,包括錯誤信息、兒童性剝削材料(CSAM)、生物濫用、選舉干預以及自主復制能力等。并將持續(xù)開發(fā)如憲法式 AI 等方法,以提升模型的安全性和透明度,并對模型進行了調整優(yōu)化,以降低由新型模態(tài)引發(fā)的隱私問題。
對于日益復雜的模型中所存在的偏見問題,根據問題回答偏見基準測試(BBQ),Claude 3 模型相比之前的產品表現出更少的偏見。
團隊將繼續(xù)致力于推動減少偏見并促進模型更大程度中立性的技術進步,確保它們不會偏向任何特定的政治立場。
實質上,關于AI 安全的問題,在此前一直是一個爭議的熱點。曾獲得圖靈獎、被稱為“AI 教父”的加拿大計算機科學家 Yoshua Bengio就曾呼吁,AI 領域被少數科技公司控制的可能性,將會是該技術帶來生存風險之后的“第二大問題”。
Anthropic 的創(chuàng)始團隊從 OpenAI 出來,并且參加過 GPT-3 的核心研發(fā)工作,目前也許是除了微軟與 OpenAI 之外,最了解 OpenAI 與 GPT 系列大模型的公司。而他們選擇的道路與Open AI相比也正好印證了技術路線的分歧:到底是性能先行還是兼顧技術治理。
這也是他們在發(fā)展理念上的終極競爭。
而關于Claude 3 帶給行業(yè)接下來的影響,除了對于Open AI 霸主的地位的沖擊外,有行業(yè)人士直接表示,行業(yè)有望很快從模型競爭轉變?yōu)楣ぷ髁鞲偁帯?/p>
該觀點的形成與Claude 3系列模型在定價策略上的與眾不同相關。目前,Claude 3系列中最頂級版本Claude 3 Opus的價格設定凸顯其高端定位,對于每100萬條token的使用費用為15美元,明顯高于GPT-4 Turbo的10美元收費標準。
然而,Anthropic也透露,Claude 3系列中性能相對較低的Sonnet和Haiku版本,在處理相同數據量時的收費至少比Claude 3 Opus低五倍。
舉例來說,如果用Claude來創(chuàng)建電子表格并比較其不同層級模型與GPT-4 Turbo以及GPT-3.5的成本,可以發(fā)現,在高端產品線上,Claude 3 Opus在輸入和輸出成本上均超過了GPT-4 Turbo;但在小型或中低端模型方面,例如Claude 3 Haiku的定價則較GPT-3.5-turbo-0125更為經濟實惠。
這種價格差異使得業(yè)界開始討論小規(guī)模模型的市場前景,有人甚至預測小模型可能在未來市場競爭中逐漸淡出。
與此同時,Anthropic對AI安全性的高度重視及定價策略上的親民設計,顯示了該公司商業(yè)模式上的獨特布局,即更傾向于瞄準具有較高付費能力的企業(yè)級客戶群體。
Claude 3發(fā)布后,市場上對下一代大模型GPT-5的期待聲浪愈發(fā)高漲,許多業(yè)內專家認為,這不僅標志著Claude的崛起時刻,同時也是Open AI展現實力的關鍵階段。有網友樂觀預計,也許不久就能見證GPT-4.5的誕生。雖然最終結果有待觀察,但可以預見的是,這場圍繞大模型技術的競爭即將迎來新一輪的升級與高潮。
雷峰網(公眾號:雷峰網)AI 科技評論將持續(xù)關注大模型領域動態(tài),歡迎添加anna042023和lionceau2046,交流認知,互通有無
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。