蘋果大模型最新論文：AFM 模型多維度評測「出爐」

本文作者：朱可軒

2024-08-30 17:23

導(dǎo)語：蘋果大模型最新進(jìn)展。

編譯 | 朱可軒

編輯 | 陳彩嫻

不久前，蘋果在全球開發(fā)者大會(huì)（WWDC）上推出了最新個(gè)人智能系統(tǒng) Apple Intelligence，可以深度集成到 iOS 18、iPadOS 18 和 macOS Sequoia 中，引起了 AI 業(yè)內(nèi)人士、尤其是端側(cè)智能領(lǐng)域的討論。

蘋果在 2024 年的一系列技術(shù)動(dòng)作，被戲稱為蘋果為端側(cè) AI 所設(shè)計(jì)的“開卷考試”，即：大模型時(shí)代，AI 技術(shù)應(yīng)如何在手機(jī)、平板等端側(cè)設(shè)備上運(yùn)營，讓手機(jī)變得更智能？

近日，蘋果團(tuán)隊(duì)又在 arXiv 上更新了關(guān)于 Apple Intelligence 的最新論文，其中介紹了蘋果用在 Apple Intelligence 上的兩個(gè)基礎(chǔ)語言模型，包括：一個(gè)在設(shè)備端運(yùn)行的大約 30 億參數(shù)的語言模型 AFM-on-device，以及一個(gè)在私有云計(jì)算上運(yùn)行的大規(guī)模服務(wù)器語言模型 AFM-server。

蘋果大模型最新論文：AFM 模型多維度評測「出爐」

論文鏈接：https://arxiv.org/pdf/2407.21075

根據(jù)該論文，蘋果開發(fā)的端側(cè)大模型在語言理解、指令跟隨、推理、寫作與工具使用等多個(gè)任務(wù)上都有出色表現(xiàn)。同時(shí)，在保護(hù)用戶數(shù)據(jù)隱私與安全上，蘋果強(qiáng)調(diào)在后訓(xùn)練階段不會(huì)使用用戶的個(gè)人數(shù)據(jù)進(jìn)行訓(xùn)練。

結(jié)果顯示，蘋果的 AFM 模型在指令遵循層面皆優(yōu)于其他大模型，同時(shí)，從寫作寫作能力來看，在摘要總結(jié)方面，AFM 模型無論是端側(cè)還是私有云也均要好于其他。而在安全性評估時(shí)，AFM 模型也比其他模型要更為負(fù)責(zé)。但是值得一提的是，AFM 模型的數(shù)學(xué)能力整體上來看較為一般。

研究發(fā)現(xiàn)

人類評估

在人類評估中，在端側(cè)，AFM 僅輸于 Llama-3-8B ，而與其他模型相比顯然更優(yōu)。據(jù)論文介紹，AFM 與 Phi-3-mini 相比，模型尺寸小了 25%，而勝率達(dá)47.7% ，AFM 甚至超出參數(shù)數(shù)量為兩倍多的 Gemma-7B 和 Mistral-7B。而在私有云上，與GPT-3.5相比時(shí)，AFM 也具有一定競爭力，勝率超 50%。

蘋果大模型最新論文：AFM 模型多維度評測「出爐」

指令遵循

在指令級（Instruction-level）與提示級（Prompt-level）的評估中，無論是端側(cè)還是私有云上，均為 AFM 模型表現(xiàn)最好。其指令級的得分分別為 85.7% 和 88.5%，而提示級的得分則分別為 79.3% 和 83.0%。

此外，蘋果還使用了 AlpacaEval 2.0 LC 和 Arena Hard 作為基準(zhǔn)進(jìn)行評估。在私有云上，這兩項(xiàng)測試中均為 GPT-4 的表現(xiàn)最優(yōu)，其中，在 Arena Hard 測試中，GPT-4 的得分甚至倍超 AFM。在端側(cè)的 AlpacaEval 2.0 LC 測試中，則為 Gemma-7B 評分最優(yōu)，AFM 模型緊隨其后。

蘋果大模型最新論文：AFM 模型多維度評測「出爐」

工具使用

蘋果還測試了在調(diào)用工具使用基準(zhǔn)測試中 AFM 模型的表現(xiàn)，分別從簡單（Simple）、多重（Multiple）、并行（Parallel）、并行多重（Parallel Multiple）、相關(guān)性（Relevance）和平均（Average）幾個(gè)緯度展開。

整體來看，AFM-server 表現(xiàn)較優(yōu)，從測試結(jié)果上來看，在簡單、多重、相關(guān)性、平均性維度中，AFM-server 均得分最高，分別為91.0、95.5、91.3、89.5。在并行多重維度中，AFM-server 得分 85.0，僅次于 Gemini-1.5-Pro-0514 的 88.0，且領(lǐng)先于 GPT-4 與 GPT-3.5。

但 AFM-on-device 表現(xiàn)則較為一般，在多重、并行多重、相關(guān)性及平均維度中，均要稍遜于 GPT-4 和 Gemini-1.5-Pro-0514。除此之外，在并行維度中，AFM-server 和 AFM-on-device 的表現(xiàn)情況則都較為一般。

蘋果大模型最新論文：AFM 模型多維度評測「出爐」

寫作能力分兩塊，一塊是摘要總結(jié)，一塊是長作文。其中，AFM 模型主要在摘要總結(jié)上表現(xiàn)較好，在端側(cè)的表現(xiàn)優(yōu)于 Mistral-7B、Gemma-7B、Phi-3-mini 與 Gemma-2B，在私有云上則優(yōu)于 GPT-4、Mixtral-8x22B、DBRX Instruct 與 GPT-3.5：

蘋果大模型最新論文：AFM 模型多維度評測「出爐」

數(shù)學(xué)能力上，蘋果 AFM 模型的表現(xiàn)則一般，僅在端側(cè) MATH 基準(zhǔn)上高于 Llama-3-8B、Phi-3 mini、Gemma-7B 與 Mistral-7B，GSM8k 是 8-shot、MATH 是 4-shot：

蘋果大模型最新論文：AFM 模型多維度評測「出爐」

負(fù)責(zé)任的 AI

在文本摘要總結(jié)功能中，蘋果團(tuán)隊(duì)將 AFM 模型在郵件、信息與通知這三個(gè)應(yīng)用上作了測試，分別從 5 個(gè)維度（仇恨言論、歧視、違法、色情、暴力）來評估模型的“好”與“差”。研究顯示，蘋果的 AFM 模型在“好”維度的表現(xiàn)均高于 Gemma-7B、Phi-3-8B 與 Llama-3-8B：

蘋果大模型最新論文：AFM 模型多維度評測「出爐」

安全性評測

在有害輸出上，蘋果 AFM-on-device 的得分為 7.5%、AFM-server 的得分為 6.3%，得分越低、效果越好，遠(yuǎn)遠(yuǎn)高于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 與 Mistral-7B（其余得分均在 10% 以上）：

蘋果大模型最新論文：AFM 模型多維度評測「出爐」

在安全提示詞上，人類評估，蘋果的 AFM-on-device 模型表現(xiàn)優(yōu)于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 與 Mistral-7B，AFM-server 模型的表現(xiàn)也要遠(yuǎn)超 GPT-3.5、GPT-4 和 Llama-3-70B：雷峰網(wǎng)雷峰網(wǎng)(公眾號：雷峰網(wǎng))

蘋果大模型最新論文：AFM 模型多維度評測「出爐」

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

朱可軒

編輯

發(fā)私信

當(dāng)月熱門文章