騰訊混元大模型升級：新增“文生圖”，代碼能力大幅提升

本文作者： nebula

2023-10-26 17:48

導語：騰訊混元能畫畫了！騰訊混元大模型對外開放文生圖能力。

10月26日，騰訊宣布，騰訊混元大模型迎來全新升級，并正式對外開放“文生圖”功能，展示了其在圖像自動生成領域的領先能力。升級后的騰訊混元中文能力整體超過GPT3.5，代碼能力大幅提升20%，達到業(yè)界領先水平。

作為實用級的通用大模型，騰訊混元大模型的應用場景豐富多樣。目前，超過180個騰訊內部業(yè)務已接入騰訊混元，包括騰訊會議、騰訊文檔、企業(yè)微信、騰訊廣告和微信搜一搜等。最近，QQ瀏覽器還基于騰訊混元推出了“PDF閱讀助手”，具備智能摘要、智能問答和多輪提問等功能。

目前，已有來自零售、教育、金融、醫(yī)療、傳媒、交通、政務等多個行業(yè)的客戶，通過騰訊云調用騰訊混元大模型API，應用領域涉及智能問答、內容創(chuàng)作、數據分析、代碼助手等多個場景。今年9月首批通過備案后，騰訊混元大模型也已經面向C端用戶陸續(xù)開放體驗，用戶通過小程序或網頁端，就能與騰訊混元對話。

此次，騰訊自研的面向垂直領域的7B和13B模型也首次亮相，同等效果下僅需較少的tokens，訓練效率更高。模型實測中英文效果整體優(yōu)于國內外開源模型，能夠以更高的性價比和效率支持應用落地，滿足各種垂直場景和業(yè)務需求，助力騰訊全面擁抱大模型。

據了解，騰訊掌握從模型算法到機器學習框架再到AI基礎設施的全鏈路自研技術，這為大模型的快速迭代提供了有利條件。自首次公開亮相以來，騰訊混元大模型進入了加速升級的軌道。在自研算法的支持下，模型穩(wěn)定性和可靠性穩(wěn)步提升。

騰訊混元文生圖驚艷亮相，廣告場景應用效果明顯

文生圖是AIGC領域的核心技術之一，也是體現通用大模型能力的試金石，對模型算法、訓練平臺、算力設施都有較高的要求。

騰訊最早在廣告場景進行AI自動生成圖像的探索，在此過程中積累了深厚的研發(fā)能力。據介紹，相比其他大模型，騰訊混元的文生圖應用，在人像真實感、場景真實感上有比較明顯的優(yōu)勢，同時，在中國風景、動漫游戲等場景等生成上有較好的表現。

在業(yè)界公認難度較高的人臉畫像生成上，騰訊混元也交出了令人滿意的作品。比如，輸入提示詞“生成可愛的亞洲 4 歲女孩穿著棉質連衣裙，大眼睛，古代中國，攝影風格，漢服”，騰訊混元大模型生成如下：

騰訊混元大模型升級：新增“文生圖”，代碼能力大幅提升

可以看到，騰訊混元大模型可以很好地理解提示詞中提到的“棉質連衣裙”、“漢服”等內容，同時在風格上，也通過建筑和風景等襯托，很好的展示了“古代中國”的風格要求。

另外一個例子中，輸入提示詞“ 一個城市CBD辦公樓，現代化設計，高層建筑，玻璃幕墻，近景拍攝，攝影風格，攝影照片”，騰訊混元大模型交出了如下作品：

騰訊混元大模型升級：新增“文生圖”，代碼能力大幅提升

更簡單一些，輸入提示詞“輕舟已過萬重山，水墨畫風格”就可以得到下面的圖片：

騰訊混元大模型升級：新增“文生圖”，代碼能力大幅提升

大模型文生圖的難點體現在對提示詞的語義理解、生成內容的合理性以及生成圖片的效果。針對這三個技術難點，騰訊進行了專項的技術研究，提出了一系列原創(chuàng)算法，來保證生成圖片的可用性和畫質。

在語義理解方面，騰訊混元采用了中英文雙語細粒度的模型。模型同時建模中英文實現雙語理解，并通過優(yōu)化算法提升了模型對細節(jié)的感知能力與生成效果，有效避免多文化差異下的理解錯誤。

在內容合理性方面，AI生成人體結構和手部經常容易變形?；煸纳鷪D通過增強算法模型的圖像二維空間位置感知能力，并將人體骨架和人手結構等先驗信息引入到生成過程中，讓生成的圖像結構更合理，減少錯誤率。

在畫面質感方面，混元文生圖基于多模型融合的方法，提升生成質感。經過模型算法的優(yōu)化之后，混元文生圖的人像模型，包含發(fā)絲、皺紋等細節(jié)的效果提升了30%，場景模型，包含草木、波紋等細節(jié)的效果提升了25%。

騰訊混元大模型升級：新增“文生圖”，代碼能力大幅提升

prompt：生成一幅照片：桂林漓江的山水，江上有一艘小船

作為“從實踐中來，到實踐中去”的大模型，騰訊混元文生圖能力，目前已經被用于素材創(chuàng)作、商品合成、游戲出圖等多項業(yè)務中，此外在廣告業(yè)務下的多輪測評中，騰訊混元文生圖的案例優(yōu)秀率和廣告主采納率分別達到86%和26%，均高于同類模型。

代碼能力行業(yè)領先，騰訊內部已經用大模型“寫”代碼

過去一個月，騰訊混元大模型不僅各項能力均有升級，代碼、數學能力也大幅提升。經過對32種主流語言代碼文件、各類計算機書籍和博客的學習增訓，騰訊混元代碼處理水平提升超過20%，代碼處理效果勝出ChatGPT 6.34%，在HumanEval公開測試集指標上全面超過Starcoder、Codellama等業(yè)界頭部開源代碼大模型。

只需輸入簡單的指令如“幫我用前端語言實現一個貪吃蛇”，騰訊混元便能自動生成可運行的代碼，快速制作出一個貪吃蛇小游戲。此外，騰訊混元還支持Python、C++、Java、Javascript等多種語言的指令生成，比如輸入“用Python畫紅色的心形線”，騰訊混元會提供代碼庫選擇、安裝命令、繪制代碼等具體操作步驟的指引。

騰訊混元大模型升級：新增“文生圖”，代碼能力大幅提升

Prompt：用Python畫紅色的心形線

騰訊內部目前已經有多個開發(fā)平臺接入了騰訊混元大模型，工程師們可以使用騰訊混元來進行代碼生成、代碼補全、代碼漏洞檢測和修復、表格數據處理、數據庫查詢等工作。

比如，在IDE編程場景中，騰訊工蜂Copilot通過接入混元大模型，可根據注釋生成對應代碼，或基于上下文智能補全代碼，大大提高了編程效率?；煸竽Ｐ瓦€可以幫助用戶進行代碼漏洞檢測和修復，保障軟件開發(fā)過程中的安全性。

騰訊混元大模型持續(xù)升級背后，離不開騰訊自研一站式機器學習平臺Angel的支撐。自研AngelPTM訓練框架可提供高效的分布式訓練解決方案，具備業(yè)界領先的內存利用率和訓練吞吐效率，訓練速度相比業(yè)界主流框架提升1 倍；自研AngelHCF訓練框架，具備從蒸餾、微調、壓縮到模型加速的完整能力，支持多種模型并行，保證模型的最小化部署及最大化吞吐，推理速度相比業(yè)界主流框架FasterTransformer快1.3倍。

從2021年開始，騰訊先后推出千億和萬億參數的NLP稀疏大模型，打破CLUE三大榜單紀錄，實現在中文理解能力上的新突破。2023年9月混元大模型的亮相，代表騰訊在大模型理解和生成通路上的融合打通。隨著文生圖功能的出現，騰訊混元大模型加入了對圖像的處理能力，模態(tài)進一步豐富。

大模型多模態(tài)交互能力被認為是通往通用人工智能的必由之路，也是不斷擴充大模型能力象限的一個重要方向。據介紹，騰訊混元大模型正在不斷強化圖片、視頻、音頻等各類模態(tài)的處理能力，相關成果也將很快面向外界推出。

雷峰網(公眾號：雷峰網)

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

nebula

運營

發(fā)私信

當月熱門文章