面壁新模型：早于Llama3、比肩 Llama3、推理超越 Llama3！

本文作者：張進

2024-05-01 21:38

導(dǎo)語：開源大模型「理科狀元」

[雷峰網(wǎng)(公眾號：雷峰網(wǎng))]兩周前，面壁發(fā)布領(lǐng)先的開源大模型「Eurux-8x22B 」。相比口碑之作 Llama3-70B，發(fā)布時間更早，綜合性能相當(dāng)，尤其是擁有更強的推理性能——刷新開源大模型推理性能 SOTA，堪稱開源大模型中「理科狀元」。激活參數(shù)僅 39B，支持 64k 上下文，相比 Llama3 速度更快、可處理更長文本。

圖注：面壁Eurux-8x22B 模型在 LeetCode 和 TheoremQA這兩個具有挑戰(zhàn)性的基準(zhǔn)測試中，刷新開源大模型推理性能 SOTA。

面壁新模型：早于Llama3、比肩 Llama3、推理超越 Llama3！

圖注：面壁Eurux-8x22B 模型綜合性能比肩 LlaMa3-70B，超越開源模型 WizardLM-2-8x22b, Mistral-8x22b-Instruct,DeepSeek-67b，以及閉源模型 GPT-3.5-turbo。

Eurux-8x22B 由 Mistral-8x22B對齊而來。強勁戰(zhàn)斗力，來自面壁 Ultra 對齊技術(shù)上新 UltraInterat 大規(guī)模、高質(zhì)量對齊數(shù)據(jù)集。此前，面壁 Ultra 對齊系列數(shù)據(jù)集已經(jīng)“強壯”了全球超 200 個大模型，堪稱大模型上分神器。

Eurux-8x22B模型+對齊數(shù)據(jù)集，全家桶開源：

https://github.com/OpenBMB/Eurus

https://huggingface.co/openbmb/Eurux-8x22b-nca

開源大模型「理科狀元」

復(fù)雜推理能力是體現(xiàn)大模型性能差異的最核心能力之一，也是大模型真正落地應(yīng)用所需的關(guān)鍵能力所在。

Eurux-8x22B 在代碼和數(shù)學(xué)等復(fù)雜推理的綜合性能方面超越 Llama3-70B，刷新開源大模型 SOTA，堪稱「理科狀元」。特別在 LeetCode （180道LeetCode真題）和 TheoremQA（美國大學(xué)水準(zhǔn)的STEM題目）這兩個具有挑戰(zhàn)性的基準(zhǔn)測試中，超過現(xiàn)有開源模型。

面壁新模型：早于Llama3、比肩 Llama3、推理超越 Llama3！

圖注：Eurux-8x22B 在代碼和數(shù)學(xué)等復(fù)雜推理綜合性能方面超越 Llama3-70B，刷新開源大模型 SOTA。

開源大模型「理科狀元」Eurux-8x22B在實際應(yīng)用中表現(xiàn)如何呢？

在近期 LeetCode 周賽，這一檢驗人類程序員編程能力的真實競技場上：Eurux-8x22B 在 Python 編程方面取得綜合排名超越了80% 的人類參賽選手的優(yōu)秀成績，成功解決四道算法題中的三道，可以初步通過互聯(lián)網(wǎng)大廠的程序員編程面試。

下面是本次周賽中Eurux-8x22B對一道中等難度的算法題的真實解答：

面壁新模型：早于Llama3、比肩 Llama3、推理超越 Llama3！

除了代碼能力優(yōu)秀，Eurux-8x22B 解答數(shù)學(xué)題也是輕而易舉。

例如給它一道高中排列組合題，Eurux-8x22B 首先給出了清晰的解題思路，然后一步步地拆解執(zhí)行，再進行結(jié)果匯總，最后得到正確答案。

面壁新模型：早于Llama3、比肩 Llama3、推理超越 Llama3！

再考察它一道代數(shù)題，Eurux-8x22B 直擊要害，運用二項式定理，清晰簡潔地給出了正確的解答。

面壁新模型：早于Llama3、比肩 Llama3、推理超越 Llama3！

接著給它一道向量代數(shù)題，Eurux-8x22B 也能輕松拿下。

面壁新模型：早于Llama3、比肩 Llama3、推理超越 Llama3！

高考函數(shù)題可能是令很多人回憶起來就頭疼的一類題，Eurux-8x22B 也能解答無誤。

面壁新模型：早于Llama3、比肩 Llama3、推理超越 Llama3！

（需要說明的是，Eurux-8x22B 沒有針對中文語料進行額外的微調(diào)和對齊!）

面壁 Ultra 對齊技術(shù)，大模型上分神器！

本次大模型「理科狀元」 Eurux-8x22B 的優(yōu)異表現(xiàn)，得益于來自面壁 Ultra 對齊技術(shù)的大規(guī)模、高質(zhì)量對齊數(shù)據(jù)集UltraInteract上新。

好數(shù)據(jù)，才有好模型。此前，面壁 Ultra 對齊技術(shù)已經(jīng)“強壯”了全球超 200 個大模型，堪稱大模型上分神器。

? UltraInterat對齊數(shù)據(jù)集地址：

? https://github.com/OpenBMB/Eurus

UltraInteract是專門設(shè)計用于提升大模型推理能力的大規(guī)模、高質(zhì)量的對齊數(shù)據(jù)集，包含了覆蓋數(shù)學(xué)、代碼和邏輯推理問題的12個開源數(shù)據(jù)集的86K條指令和220K偏好對，共有五十萬（條）左右數(shù)據(jù)。相比而言，LLaMA 3-70B模型則是使用了千萬量級的對齊數(shù)據(jù)，這從側(cè)面證明了 UltraInteract 數(shù)據(jù)集的優(yōu)質(zhì)性——數(shù)據(jù)質(zhì)量勝過數(shù)據(jù)數(shù)量。UltraInteract 數(shù)據(jù)集開源后在社區(qū)受到了廣泛好評。

面壁新模型：早于Llama3、比肩 Llama3、推理超越 Llama3！

從領(lǐng)先的端側(cè)模型「小鋼炮」MiniCPM，到開源模型推理新 SOTA 的Eurux-8x22B，為什么面壁智能總能推出同等參數(shù)、性能更優(yōu)的「高效大模型」？答案是，大模型是一項系統(tǒng)工程，而面壁作為國內(nèi)極少數(shù)兼具大模型算法與 infra 能力的團隊，擁有自研的全流程高效生產(chǎn)線：面壁 Ultra 對齊技術(shù)、Infra 工藝、獨家「模型沙盒」實驗和現(xiàn)代化數(shù)據(jù)工廠，從數(shù)據(jù)、訓(xùn)練到調(diào)校工藝環(huán)環(huán)相扣，一條優(yōu)秀的大模型Scaling Law增長曲線由此而生。

Infra工藝方面，面壁構(gòu)建了全流程優(yōu)化加速工具套件平臺ModelForce，可以實現(xiàn) 10 倍推理加速，90% 成本降低。

面壁新模型：早于Llama3、比肩 Llama3、推理超越 Llama3！