丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給朱可軒
發(fā)送

0

蘋果大模型最新論文:AFM 模型多維度評(píng)測(cè)「出爐」

本文作者: 朱可軒 2024-08-30 17:23
導(dǎo)語(yǔ):蘋果大模型最新進(jìn)展。

編譯 | 朱可軒

編輯 | 陳彩嫻

不久前,蘋果在全球開發(fā)者大會(huì)(WWDC)上推出了最新個(gè)人智能系統(tǒng) Apple Intelligence,可以深度集成到 iOS 18、iPadOS 18 和 macOS Sequoia 中,引起了 AI 業(yè)內(nèi)人士、尤其是端側(cè)智能領(lǐng)域的討論。

蘋果在 2024 年的一系列技術(shù)動(dòng)作,被戲稱為蘋果為端側(cè) AI 所設(shè)計(jì)的“開卷考試”,即:大模型時(shí)代,AI 技術(shù)應(yīng)如何在手機(jī)、平板等端側(cè)設(shè)備上運(yùn)營(yíng),讓手機(jī)變得更智能?

近日,蘋果團(tuán)隊(duì)又在 arXiv 上更新了關(guān)于 Apple Intelligence 的最新論文,其中介紹了蘋果用在 Apple Intelligence 上的兩個(gè)基礎(chǔ)語(yǔ)言模型,包括:一個(gè)在設(shè)備端運(yùn)行的大約 30 億參數(shù)的語(yǔ)言模型 AFM-on-device,以及一個(gè)在私有云計(jì)算上運(yùn)行的大規(guī)模服務(wù)器語(yǔ)言模型 AFM-server。

蘋果大模型最新論文:AFM 模型多維度評(píng)測(cè)「出爐」

論文鏈接:https://arxiv.org/pdf/2407.21075

根據(jù)該論文,蘋果開發(fā)的端側(cè)大模型在語(yǔ)言理解、指令跟隨、推理、寫作與工具使用等多個(gè)任務(wù)上都有出色表現(xiàn)。同時(shí),在保護(hù)用戶數(shù)據(jù)隱私與安全上,蘋果強(qiáng)調(diào)在后訓(xùn)練階段不會(huì)使用用戶的個(gè)人數(shù)據(jù)進(jìn)行訓(xùn)練。

結(jié)果顯示,蘋果的 AFM 模型在指令遵循層面皆優(yōu)于其他大模型,同時(shí),從寫作寫作能力來(lái)看,在摘要總結(jié)方面,AFM 模型無(wú)論是端側(cè)還是私有云也均要好于其他。而在安全性評(píng)估時(shí),AFM 模型也比其他模型要更為負(fù)責(zé)。但是值得一提的是,AFM 模型的數(shù)學(xué)能力整體上來(lái)看較為一般。

研究發(fā)現(xiàn)

人類評(píng)估

在人類評(píng)估中,在端側(cè),AFM 僅輸于 Llama-3-8B ,而與其他模型相比顯然更優(yōu)。據(jù)論文介紹,AFM 與 Phi-3-mini 相比,模型尺寸小了 25%,而勝率達(dá)47.7% ,AFM 甚至超出參數(shù)數(shù)量為兩倍多的 Gemma-7B 和 Mistral-7B。而在私有云上,與GPT-3.5相比時(shí),AFM 也具有一定競(jìng)爭(zhēng)力,勝率超 50%。

蘋果大模型最新論文:AFM 模型多維度評(píng)測(cè)「出爐」

指令遵循

在指令級(jí)(Instruction-level)與提示級(jí)(Prompt-level)的評(píng)估中,無(wú)論是端側(cè)還是私有云上,均為 AFM 模型表現(xiàn)最好。其指令級(jí)的得分分別為 85.7% 和 88.5%,而提示級(jí)的得分則分別為 79.3% 和 83.0%。

此外,蘋果還使用了 AlpacaEval 2.0 LC 和 Arena Hard 作為基準(zhǔn)進(jìn)行評(píng)估。在私有云上,這兩項(xiàng)測(cè)試中均為 GPT-4 的表現(xiàn)最優(yōu),其中,在 Arena Hard 測(cè)試中,GPT-4 的得分甚至倍超 AFM。在端側(cè)的 AlpacaEval 2.0 LC 測(cè)試中,則為 Gemma-7B 評(píng)分最優(yōu),AFM 模型緊隨其后。

蘋果大模型最新論文:AFM 模型多維度評(píng)測(cè)「出爐」

工具使用

蘋果還測(cè)試了在調(diào)用工具使用基準(zhǔn)測(cè)試中 AFM 模型的表現(xiàn),分別從簡(jiǎn)單(Simple)、多重(Multiple)、并行(Parallel)、并行多重(Parallel Multiple)、相關(guān)性(Relevance)和平均(Average)幾個(gè)緯度展開。

整體來(lái)看,AFM-server 表現(xiàn)較優(yōu),從測(cè)試結(jié)果上來(lái)看,在簡(jiǎn)單、多重、相關(guān)性、平均性維度中,AFM-server 均得分最高,分別為91.0、95.5、91.3、89.5。在并行多重維度中,AFM-server 得分 85.0,僅次于 Gemini-1.5-Pro-0514 的 88.0,且領(lǐng)先于 GPT-4 與 GPT-3.5。

但 AFM-on-device 表現(xiàn)則較為一般,在多重、并行多重、相關(guān)性及平均維度中,均要稍遜于 GPT-4 和 Gemini-1.5-Pro-0514。除此之外,在并行維度中,AFM-server 和 AFM-on-device 的表現(xiàn)情況則都較為一般。

蘋果大模型最新論文:AFM 模型多維度評(píng)測(cè)「出爐」

寫作能力分兩塊,一塊是摘要總結(jié),一塊是長(zhǎng)作文。其中,AFM 模型主要在摘要總結(jié)上表現(xiàn)較好,在端側(cè)的表現(xiàn)優(yōu)于 Mistral-7B、Gemma-7B、Phi-3-mini 與 Gemma-2B,在私有云上則優(yōu)于 GPT-4、Mixtral-8x22B、DBRX Instruct 與 GPT-3.5:

蘋果大模型最新論文:AFM 模型多維度評(píng)測(cè)「出爐」

數(shù)學(xué)能力上,蘋果 AFM 模型的表現(xiàn)則一般,僅在端側(cè) MATH 基準(zhǔn)上高于 Llama-3-8B、Phi-3 mini、Gemma-7B 與 Mistral-7B,GSM8k 是 8-shot、MATH 是 4-shot:

蘋果大模型最新論文:AFM 模型多維度評(píng)測(cè)「出爐」

負(fù)責(zé)任的 AI

在文本摘要總結(jié)功能中,蘋果團(tuán)隊(duì)將 AFM 模型在郵件、信息與通知這三個(gè)應(yīng)用上作了測(cè)試,分別從 5 個(gè)維度(仇恨言論、歧視、違法、色情、暴力)來(lái)評(píng)估模型的“好”與“差”。研究顯示,蘋果的 AFM 模型在“好”維度的表現(xiàn)均高于 Gemma-7B、Phi-3-8B 與 Llama-3-8B:

蘋果大模型最新論文:AFM 模型多維度評(píng)測(cè)「出爐」

安全性評(píng)測(cè)

在有害輸出上,蘋果 AFM-on-device 的得分為 7.5%、AFM-server 的得分為 6.3%,得分越低、效果越好,遠(yuǎn)遠(yuǎn)高于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 與 Mistral-7B(其余得分均在 10% 以上):

蘋果大模型最新論文:AFM 模型多維度評(píng)測(cè)「出爐」

在安全提示詞上,人類評(píng)估,蘋果的 AFM-on-device 模型表現(xiàn)優(yōu)于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 與 Mistral-7B,AFM-server 模型的表現(xiàn)也要遠(yuǎn)超 GPT-3.5、GPT-4 和 Llama-3-70B:雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)

蘋果大模型最新論文:AFM 模型多維度評(píng)測(cè)「出爐」

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

蘋果大模型最新論文:AFM 模型多維度評(píng)測(cè)「出爐」

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)