丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
業(yè)界 正文
發(fā)私信給nebula
發(fā)送

0

大語言模型“書生·浦語”多項專業(yè)評測拔頭籌

本文作者: nebula 2023-08-27 12:47
導語:商湯與上海AI實驗室等聯合打造的大語言模型“書生·浦語”(InternLM)表現出色。

最近,AI大模型測評火熱,尤其在大語言模型領域,“聰明”的上限被不斷刷新。商湯與上海AI實驗室等聯合打造的大語言模型“書生·浦語”(InternLM)也表現出色,分別在智源FlagEval大語言模型評測8月排行榜和中文通用大模型綜合性評測基準SuperCLUE 7月評測榜兩項業(yè)內權威大模型評測榜單中獲得優(yōu)異成績。

大語言模型“書生·浦語”多項專業(yè)評測拔頭籌

“FlagEval是知名人工智能新型研發(fā)機構北京智源人工智能研究院推出的大模型評測體系及開放平臺。FlagEval大模型評測體系構建了“能力-任務-指標”三維評測框架,可視化呈現評測結果,總計600+評測維度,包括22個主觀、客觀評測數據集,84433道評測題目。除知名的公開數據集 HellaSwag、MMLU、C-Eval外,FlagEval還集成了包括智源自建的主觀評測數據集Chinese Linguistics & Cognition Challenge (CLCC),北京大學等單位共建的詞匯級別語義關系判斷、句子級別語義關系判斷、多義詞理解、修辭手法判斷評測數據集。”

“SuperCLUE是由創(chuàng)立于2019年的CLUE學術社區(qū)最新發(fā)布的中文通用大模型綜合性評測基準,包含SuperCLUE-Opt客觀題測試、SuperCLUE-Open主觀題測試、SuperCLUE-LYB瑯琊榜用戶投票的匿名對戰(zhàn)測試三大基準組成。為更好地反映國內大模型與國際領先大模型間的差距和優(yōu)勢,SuperCLUE選取了多個國內外有代表性的可用模型進行評測,同時由于其數據集保密性高,對大模型來說是‘閉卷考試’,減少了模型訓練數據混入評測數據的可能性。此外,SuperCLUE還通過自動化評測方式測試不同模型效果,可一鍵對大模型進行評測,相對更客觀?!?/p>

“書生·浦語”:不僅善于考試,還是開源大模型中的佼佼者

“書生·浦語”,是商湯科技、上海AI實驗室聯合香港中文大學、復旦大學及上海交通大學打造的大語言模型,具有千億參數,在包含1.8萬億token的高質量語料上訓練而成。

今年6月,“書生·浦語”聯合團隊曾選取20余項評測進行檢驗,包括全球最具影響力的四個綜合性考試評測。結果顯示,“書生·浦語”在綜合性考試中表現突出,在多項中文考試中超越ChatGPT。

7月,“書生·浦語”正式開源70億參數的輕量級版本InternLM-7B。(https://github.com/InternLM/InternLM)

后續(xù)又推出升級版對話模型InternLM-Chat-7B v1.1,成為首個具有代碼解釋能力的開源對話模型,能根據需要靈活調用Python解釋器等外部工具,解決復雜數學計算等任務的能力顯著提升。

此外,該模型還可通過搜索引擎獲取實時信息,提供具有時效性的回答。

在北京智源人工智能研究院FlagEval大語言模型評測體系8月最新排行榜中, “InternLM-chat-7B”和“InternLM-7B”分別在監(jiān)督微調模型(SFT Model)榜單、基座模型(Base Model)榜單中取得第一和第二名。

“InternLM-chat-7B”還刷新中英客觀評測記錄。

「什么是“基座模型”、“有監(jiān)督微調模型”?」

基座模型(Base Model)是經過海量數據預訓練(Pre-train)得到的,它具備一定的通用能力,比如:GPT-3。

有監(jiān)督微調模型(SFT Model)則是經過指令微調數據(包含了各種與人類行為及情感相關的指令和任務的數據集)訓練后得到的,具備了與人類流暢對話的能力,如:ChatGPT。

普遍的觀點認為,基座模型在很大程度上決定了微調模型的能力。

因此,FlagEval大語言模型評測體系針對基座模型的評測主要從“提示學習評測”和“適配評測”兩方面進行;針對有監(jiān)督微調模型的評測則從“復用針對基座模型的客觀評測” 進一步增加“引入主觀評測”。

此次兩個榜單中,“InternLM-chat-7B”和“InternLM-7B”均表現出優(yōu)異的綜合性能,超越備受關注的Llama2-chat-13B/7B和Llama2-13B/7B。

特別在SFT Model測試中,InternLM-chat-7B中文能力大幅領先同時,英文能力也與對手保持在相近水平,展現出更強的實用性能。

大語言模型“書生·浦語”多項專業(yè)評測拔頭籌

大語言模型“書生·浦語”多項專業(yè)評測拔頭籌

SuperCLUE評測從基礎能力、專業(yè)能力、中文特性能力三個不同維度對國內外通用大模型產品進行評價,考察大模型在70余個任務上的綜合表現。

“書生·浦語”InternLM-chat-7B在7月公布SuperCLUE評測榜單中表現出色,在SuperCLUE-Opt開源大模型榜單拔得頭籌。 

大語言模型“書生·浦語”多項專業(yè)評測拔頭籌

作為SuperCLUE綜合性三大基準之一,SuperCLUE-Opt評測基準每期有3700+道客觀題(選擇題),由基礎能力(10個子任務)、中文特性能力(10個子任務)、學術專業(yè)能力(50+子任務)組成,采用封閉域測試方式。

相比第二名ChatGLM2-6B,InternLM-chat-7B主要在學術專業(yè)方面取得較大領先,同時全面領先于第三名Baichuan-13B-Chat。

雷峰網(公眾號:雷峰網)

雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說