0
近日,關于字節(jié)跳動大語言模型研發(fā)技術專家楊紅霞離職創(chuàng)業(yè)的事情,坊間傳得沸沸揚揚。
雷峰網(公眾號:雷峰網)獨家獲悉,楊紅霞已于 5 月下旬正式從字節(jié)跳動離職,開始籌備 AI 創(chuàng)業(yè)項目。不過,楊紅霞不做“大”模型,而是將方向瞄準端側模型,布局 AI Agent。目前,團隊正在籌備組建中,已獲得 3000 至 4000 萬美元的投資,投后估值 1.5 億美元。
此前,楊紅霞為大家所熟知的是,她曾是阿里達摩院萬億參數(shù)規(guī)模多模態(tài)預訓練模型 M6 的技術負責人,參與過北京智源研究院主導的“悟道”大模型項目,而該項目是中國最早的大模型項目之一。
在字節(jié)跳動的大模型隊伍中,楊紅霞的學術氣質較為突出。據雷峰網梳理,字節(jié)大模型團隊的核心成員主要是在字節(jié)抖音、西瓜等產品內部成長起來的骨干。
2007 年,楊紅霞從南開大學本科畢業(yè)后,赴杜克大學攻讀博士,師從著名統(tǒng)計學家 David Dunson,著有超過 100 篇杰出學術論文。
博士畢業(yè)后,楊紅霞入職 IBM 全球研發(fā)中心任 Watson 研究員,之后又加入雅虎公司,擔任首席數(shù)據科學家。
2016年,楊紅霞回國加入阿里達摩院,就職期間楊紅霞的職級為 P9,曾任達摩院智能計算實驗室主任,作為技術負責人,一路見證了 M6 從百億、千億進化到萬億參數(shù)量規(guī)模。
去年年初,楊紅霞加入字節(jié)跳動 AML(Applied Machine Learning,機器學習系統(tǒng)),向團隊的負責人項亮匯報,帶領一支大約 40 人的團隊。
如今,楊紅霞身上又多了一層創(chuàng)業(yè)者的身份。
今年以來,通用大模型格局逐漸收縮,落地應用成為主旋律,越來越多的目光開始瞄向行業(yè)、端側大模型。而端側模型,主要應用在手機、電腦、智能網聯(lián)汽車等終端設備上,具有成本低、移動性強、數(shù)據安全等優(yōu)勢,正逐漸成為行業(yè)追逐的熱門話題。
今年 2 月,清華 THUNLP 走出的 AI 公司——面壁智能推出 20 億參數(shù)的開源端側模型 MiniCPM;
4 月,商湯推出 1.8B 參數(shù)規(guī)模的 SenseChat-Lite 版本端側?模型;
5 月,來自斯坦福大學的 NEXA AI 團隊發(fā)布了全球首個參數(shù)量小于 10 億的多模態(tài) AI Agent 模型 Octopus V3,在函數(shù)調用性能上遠超同類模型,可與 GPT-4V+GPT4 相媲美,更是將端側模型卷到新高度。
據了解,NEXA AI 團隊創(chuàng)始人兼首席科學家陳偉(Alex Chen),正在攻讀斯坦福大學博士學位,擁有豐富的AI研究經驗;聯(lián)合創(chuàng)始人兼首席技術官李志遠,畢業(yè)于斯坦福大學,并在 Google 和 Amazon Lab 126 實驗室擁有 4 年端側 AI 的研發(fā)經驗。
不管是手機,還是電腦,或者汽車,在人們的生活中都扮演著重要角色,可見,端側大模型前景廣闊,在如何更好地訓練出小且好用的端側模型的新行業(yè)命題下,大有可為。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。