0
本文作者: 王悅 | 2024-05-29 10:36 |
CMU LTI (卡內(nèi)基梅隆大學語言技術研究所)每年在全球范圍內(nèi)只有十個左右的博士錄取名額,其中的華人學者鳳毛麟角。本次以 OpenAI 發(fā)布 ChatGPT 為標志掀起的人工智能浪潮,CMU 也在各大主流 AI 公司中扮演了技術核心。
這群 CMU 中的華人學者,在中西爭奪人工智能高地的競爭中,歸國人才顯得尤其彌足珍貴。楊植麟是其中之一,在國內(nèi)創(chuàng)辦月之暗面,迅速上升為中國估值最高的大模型公司之一。而比楊植麟大一屆的趙天成,也是從 CMU 畢業(yè)回國的青年創(chuàng)業(yè)者。
趙天成可以稱得上「AI 名門正派」,本科就讀于 UCLA(加利福尼亞大學洛杉磯分校),以全院第一的成績獲 2014 級工程學院杰出畢業(yè)生。隨后在 CMU LTI 碩博連讀,主導師為 Maxine Eskenazi ,并和 Alan Black、 LP Morency 、 William W Cohen 多次合作。四年期間,趙天成主要研究用生成式模型做對話的核心問題,累計發(fā)表了 20 余篇頂會論文,僅僅用了 4 年半就完成了通常需要 6-7 年完成的博士學業(yè)。
作為一名創(chuàng)二代,趙天成選擇在硅谷短暫工作后回國,接手其父親趙凡創(chuàng)辦的聯(lián)匯科技。在這家擁有 20 年 2B 經(jīng)驗的企業(yè)中,通過多模態(tài)大模型賦能已有的、新開拓的 B 端大客戶,從一開始在商業(yè)路徑上就無比清晰。而目前很多AI公司在商業(yè)路徑、變現(xiàn)上仍然缺乏戰(zhàn)略形成鮮明對比。
相較國內(nèi)很多大模型公司,趙天成從回國的第一天起就堅定的走多模態(tài)大模型方向,多模態(tài)能力的重要性在近期OpenAI 發(fā)布的 GPT-4O 上得以驗證。這意味著,要真正實現(xiàn)大模型落地應用,不能只有文本語言,加入多模態(tài)能力是大模型競爭的大勢所趨,也是距離 AGI 更近的一步。
但其實,在 2023 年 11 月 6 日 GPT-4V 發(fā)布之前,業(yè)內(nèi)更多地將目光放在大語言模型之上,多模態(tài)模型創(chuàng)業(yè)是少有人走的路。但聯(lián)匯科技在 2021 年前后即開始推進多模態(tài)的研發(fā)工作,以模型的理解能力而非生成能力為切入口,可以說是國內(nèi)多模態(tài)模型創(chuàng)業(yè)公司中的先行者。
「科技賽道投資要追求非共識的正確判斷,這需要極高的行業(yè)認知和判斷?!雇顿Y聯(lián)匯科技的前海母基金高級行業(yè)研究員馬駿對 AI 科技評論說道。做理解方向的多模態(tài)模型,這在市場上是比較稀缺的,聯(lián)匯科技在投資人眼中也就成為了反共識。
依托于過去老業(yè)務的基礎,聯(lián)匯科技的 AI 業(yè)務增長有著明顯的優(yōu)勢。雖然在大眾的認知和傳播度上不及Pika、Sora 等生成方向的多模態(tài)模型,但是聯(lián)匯科技已經(jīng)和廣電媒體、運營商、國家電網(wǎng)等涉及民生的大 B 企業(yè)合作,用「B2B2C」的方式更好地做商業(yè)化,營收已經(jīng)跑贏大多數(shù)大模型公司。
談到如何能在當下的環(huán)境中把多模態(tài)模型的 2B 商業(yè)化做到這么多營收,趙天成將其歸結(jié)為是一個「在約束條件下最大化商業(yè)化成果」的優(yōu)化問題?!傅讓蛹夹g要領先市場一步甚至兩、三步,商業(yè)化產(chǎn)品,基本上會保持領先 0.5 步的方式去做?!?/p>
以下是 AI 科技評論與聯(lián)匯科技 CEO & 首席科學家趙天成、前海母基金高級行業(yè)研究員馬駿的對話實錄:
一、多模態(tài)創(chuàng)業(yè)的先行者
AI 科技評論:你本科畢業(yè)于 UCLA,之后在 CMU LTI 碩博連讀,這期間主要做了哪些研究?
趙天成:我是 2010 年到 2014 年讀本科,期間跟隨 UCLA 語音實驗室創(chuàng)始人 Abeer Alwan 教授學習語音處理相關研究。畢業(yè)的時候申請學校,她強烈推薦我去 CMU,因為 CMU 的人工智能和自然語言處理方面幾乎是最強的。
在 CMU 我的研究方向就是基于預訓練的端到端的生成式模型,并且應用于人機對話系統(tǒng),本質(zhì)就是現(xiàn)在的 ChatGPT 的前身。我主要的研究內(nèi)容也基本上覆蓋了生成式對話系統(tǒng)的幾大方向:
第一個方向是模型架構,整個生成式模型的模型架構的研究最早是通過RNN,之后引入隱變量學習,然后在此基礎架構升級為Transformer;
第二個方向是機器學習的機制,從變分模型到強化學習到多模態(tài)融合;
第三個方向是關于怎么實現(xiàn)小樣本遷移,讓模型學會任務級別的零樣本泛化。
2016 年,我發(fā)布了業(yè)界最早的一篇基于端到端生成式模型的任務型對話機器人的論文《Towards End-to-End Learning for Dialog State Tracking and Management using Deep Reinforcement Learning》。通過一個端到端的神經(jīng)網(wǎng)絡合并代替了過往需要多個專業(yè)模塊串聯(lián)而成的復雜專家系統(tǒng)。
論文鏈接:https://arxiv.longhoe.net/abs/1606.02560
2017年,又發(fā)布了另一篇《Generative Encoder-Decoder Models for Task-Oriented Spoken Dialog Systems with Chatting Capability》是最早的混合閑聊和任務型對話的生成式模型。
論文鏈接:https://arxiv.longhoe.net/abs/1706.08476
除此之外,每年大約有 5 篇頂會的論文發(fā)布,四年發(fā)了20多篇。
AI 科技評論:當時的生成式對話與現(xiàn)在的 ChatGPT 相比,有什么區(qū)別?
趙天成:其實核心原理都差不多,都是自回歸模型預訓練。最主要的區(qū)別在于 scale(量級)上。比如,以前還沒有百億級的Transformer,那時用的是億級的 RNN;以前的訓練數(shù)據(jù)可能是幾千萬個 Token,現(xiàn)在變成了幾萬億個Token;以前的卡差不多是 8 塊 3090,現(xiàn)在是千塊 A100。
AI 科技評論:在學習的過程中,哪個重要的節(jié)點讓你的研究產(chǎn)生變化或者有很大的突破?
趙天成:AlphaGo 是很重要的一個節(jié)點。
剛到 CMU 的時候,導師 Maxine Eskenazi 和 Alan Black 他們做了當時全球最早的實用化對話系統(tǒng)「Let‘s Go」,能夠?qū)崿F(xiàn)打電話詢問公交車信息和訂票的功能,上世紀 90 年代到 21 世紀之初,大部分的對話類研究都是基于這個系統(tǒng)做的,但這個系統(tǒng)全部是靠專家規(guī)則拼出來的,是一群CMU 博士花了幾年時間才做出來,而且和真正的應用相比還有很大的距離,并且我們意識到這個系統(tǒng)智能上限很低。
2017 年,AlphaGo 出來,我們認為端到端學習肯定可以改變以前專家系統(tǒng)拼湊的方式,可以通過一套完整的學習機制去實現(xiàn)真正的智能體,于是就把整個 Let’s Go 系統(tǒng)整體轉(zhuǎn)成了純生成式的,把專家系統(tǒng)用生成式模型做了替換。做這件事的初衷是覺得生成式模型的上限更高,想要做一些未來五年之后才能爆發(fā)的技術,而不是去做成熟的技術。
AI 科技評論:楊植麟也是 CMU 畢業(yè)的,讀書期間你們是否有合作?
趙天成:會有合作交流,楊植麟比我小一屆,我跟楊植麟的導師 William W Cohen合作得也比較多。
AI 科技評論:你在 CMU 的導師是誰?
趙天成:Maxine Eskenazi 是我的主導師,在對話和人機交互方向很有經(jīng)驗,特別是在如何做 research 方面對我的影響非常大,教會我如何去做具有引領性工作的 research。在碩士期間, Alan Black 是 co-advisor,但之后他的研究方向更偏語音合成,而我會偏深度學習NLP 更多。
除此之外,我博士期間的另一位合作導師 LP Morency。他在多模態(tài)領域是全球 TOP3,本身就是最早做多模態(tài)的頂級專家。他教會了我什么是多模態(tài)模型,特別是在視覺與語言融合這一塊給了我很多指導。讀博期間,甚至現(xiàn)在在聯(lián)匯的工作基本上都還是在當時研究的大框架上去做延展。雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)雷峰網(wǎng)
還有 William W Cohen(楊植麟的博士導師),他是谷歌的首席科學家,我做對話系統(tǒng)以及現(xiàn)在的多模態(tài)模型,很關鍵的一個問題是怎么樣更好地把 knowledge base(知識庫)構建起來,這部分他給我很多指導。
AI 科技評論:除了研究履歷外,還有哪些因素促使你在回國之時選擇多模態(tài)模型的方向創(chuàng)業(yè)?
趙天成:當然。這也跟我們本身的商業(yè)基礎有關。聯(lián)匯科技是從媒體技術與服務起家的科技企業(yè),很大的一塊業(yè)務是服務于中央臺、浙廣集團這樣的廣電媒體,并做到了行業(yè)第一,行業(yè)天然存在很多的多媒體數(shù)據(jù)。這些業(yè)務對我們初期做 PMF 有著很大的幫助。
另外一個因素是在客戶接受度層面,這些中央地方的廣電媒體對故障零容忍,對新鮮事物,比如AI技術的接受需要一個過程,而聯(lián)匯科技憑借過往過硬的技術實力,充分得到了這些“要求苛刻”的客戶的信任,得以使公司的多模態(tài)大模型能夠迅速商業(yè)化。
AI 科技評論:做好這個決定之后,在一個 20 年 2B 經(jīng)驗的老公司推 AI 新業(yè)務的打法是什么樣的?
趙天成:首先把公司目標進行了重新的定義。從過去的「讓信息傳播推動創(chuàng)新」改變成了「以智能去推動創(chuàng)新」,大家以 all in AI 的態(tài)度去做整體的升級改造。
從整個步調(diào)來看,一開始是從做理論研究到早期的基礎設施建設,慢慢地一步一步到應用產(chǎn)品。另一方面,幾年的時間下來,團隊也進行了大升級,更新成了更加年輕化的團隊。構建了以 AI 為核心,在幾個應用點去落地產(chǎn)品這樣一個兩層的布局。
從產(chǎn)品化、商業(yè)化來看,還是要穩(wěn)扎穩(wěn)打的。(我們)重點投資了大模型基礎設施建設,完善了大模型落地的工具平臺,然后到后面一步一步去做應用層的開發(fā)。
商業(yè)化的過程也是先以存量市場應用升級為第一步,然后慢慢去打造 AI 原生應用作為第二步,實現(xiàn)“兩步走”的策略。
AI 科技評論:馬博士,從投資機構的角度,如何看待聯(lián)匯在那個時間節(jié)點選擇走的偏理解的多模態(tài)模型之路?
馬駿:我認為這是一種反共識做法。2022 年,GPT4V 還沒有發(fā)布,并沒有很多人做多模態(tài)創(chuàng)業(yè),市面上更多是在關注大語言模型,看到聯(lián)匯的時候會感受到差異化和眼前一亮。
從商業(yè)化的角度去考慮,生成式模型逃不開的制約因素就是幻覺問題。傳統(tǒng)的生成式模型的準確性偏差是一些商業(yè)化場景所不能容忍的,那么這個時候如果能不過分強調(diào)生成,而是強調(diào)理解,就可以很巧妙地避開幻覺問題,算是揚長避短吧。
AI 科技評論:聯(lián)匯科技的趙凡總有著 20 年 2B 業(yè)務的經(jīng)驗,趙天成博士又有頂尖科研經(jīng)歷,你怎么看待這種「互聯(lián)網(wǎng)老兵+天才少年」的創(chuàng)業(yè)組合?
馬駿:第一就是在整個產(chǎn)品和研發(fā)的路徑上,趙凡總對產(chǎn)品的把控都是很貼近客戶需求的,真的是能在場景里面能解決問題的,所以能保證技術、場景、產(chǎn)品三者達到很好的匹配,這也就意味著整體的試錯成本會比較低,這是我們非常看重的一點。
第二,聯(lián)匯科技作為一家大模型公司,工具鏈做得非常齊全。可以看到,其實大模型想要在場景上落地,它不單單只是模型,還包括如何去做推理的加速,或者和硬件綁定所需的智能體的工具鏈。這一點在最早接觸的時候,市面上沒有太多公司意識到如何去做一家全面的、端到端落地的公司。
所以這種老少搭配,第一在場景上不會出問題,第二就是他們明白如何做一家全面的公司,而不是單純的技術團隊,只在單點上做突破。因為我們理解做單點突破,在現(xiàn)在的市場環(huán)境上是遠遠不夠的,你的壁壘或者護城河是無法靠單點來維持的,開源模型天天在卷,僅靠模型來做一個壁壘是不夠的。
AI 科技評論:聯(lián)匯科技有哪些特點是吸引你的?
馬駿:聯(lián)匯的商業(yè)化做得很穩(wěn)?,F(xiàn)在做業(yè)務側(cè)的 AI 公司大致有兩類:
一類是大模型公司直接去做業(yè)務,他們的問題就是場景還不聚焦,他們更希望用標準化的產(chǎn)品服務各種場景,而對于業(yè)務理解的深度不夠,可能導致客戶不滿意;
第二類是集成商,他們拿著開源模型改一改,倒是可以交付,但無法深入,也不是長久之計。
我們可以看到各個行業(yè)的企業(yè)數(shù)字化進程是不可逆的,這個時候陪伴客戶成長反而是更重要的,拋開技術的壁壘,聯(lián)匯科技一直在陪伴客戶成長,這方面他們很有經(jīng)驗。
二、在約束條件下最大化商業(yè)成果
AI 科技評論:聯(lián)匯在技術上有哪些突破?
趙天成:從模型層面,歐姆大模型是國內(nèi)最早發(fā)布的多模態(tài)模型系統(tǒng),最大的突破在于對視頻的理解能力增強。過去的 CV 更多的是單圖理解,但聯(lián)匯顛覆了傳統(tǒng)單圖理解的局限。
從智能體的角度來看,目前聯(lián)匯推出的智能體,都是以自研框架實現(xiàn)的,并且在解決智能體端到端優(yōu)化的問題上,開發(fā)了獨特的算法。
除了技術迭代之外,聯(lián)匯今年有多個智能體應用在運營商、電力、媒體等行業(yè),實現(xiàn)了規(guī)模化的商業(yè)落地應用。后續(xù)我們也將根據(jù)實際用戶反饋去進一步優(yōu)化系統(tǒng),這有著非常大的價值,使雙方能迅速形成“數(shù)據(jù)飛輪”。
AI 科技評論:吳恩達在最近的演講中呼吁大家多關注智能體技術,你怎么看待智能體技術的發(fā)展方向?
趙天成:我非常認同吳恩達所提到的幾個點,智能體未來有四個比較有價值的方向:
第一,怎么做智能體的反思;
第二,如何讓智能體像人一樣學會用工具去完成任務;
第三,智能體的規(guī)劃能力,它不再局限于單輪的決策,而可以自己把整個行動路線設想出來;
第四,多智能體的協(xié)同,即面對復雜任務時,讓多個角色的智能體協(xié)同起來完成任務。
綜合來講,我認為大模型越來越像底層的一個算子,就像一個 CPU 一樣,但真正顛覆我們?nèi)粘I畹氖?Windows 這一操作系統(tǒng)。一個好的智能體框架可以讓 GPT-3.5 的效果大幅度超過 GPT-4。把智能體用好之后,可以讓一個相對來說沒那么強的模型反而能夠超過目前最強的模型。同樣的技術用在 GPT 4 上的話,那它可能就變得更強了。
AI 科技評論:半年多的時間以來,很多大模型公司都在說做 Agent,目前 Agent 發(fā)展處于什么階段?
趙天成:非常初期的階段。現(xiàn)在很多比較熱的智能體技術,或者所謂的框架,其實很多時候都是換湯不換藥的。
10 年前,我們叫任務驅(qū)動對話系統(tǒng),或者再往后走,他們可能叫 Conversational AI,他們本質(zhì)來說完全是一個東西,只是換了一個名字而已。包括現(xiàn)在比較火的 RAG,在 2017 年左右就有很多人在做類似的東西。他們都是僅僅把大模型和外部知識庫做了連接,然后去做應用,后續(xù) agent 技術還有很大的發(fā)展空間。。
AI 科技評論:馬博士,2024 年或者之后,你會著重去看智能體相關的項目嗎?
馬駿:是的,從智能體出發(fā),看一些AI公司的發(fā)展歷程,引起了我們的一個反思:比如像 AI 四小龍這樣的公司,前期的時候在模型能力、技術上可能會比較領先,但是經(jīng)過七年左右的變化,等到新的底層技術出現(xiàn)的時候反過來再看,會發(fā)現(xiàn)他們前幾年在模型算法上的壁壘可能就沒有那么深了。也就是說單純靠模型算法無法為企業(yè)構筑足夠高的壁壘。
那么,企業(yè)怎么才能持續(xù)把自己的壁壘搭建得堅實起來?設想在五年之后,行業(yè)內(nèi)又出現(xiàn)了一個全新的模型架構,那現(xiàn)在這一波企業(yè)應該怎么辦?企業(yè)該如何保持自己的壁壘?又該如何轉(zhuǎn)型?
基于這一點的考慮,我覺得智能體比較重要,它更多是偏向于對業(yè)務場景中一個系統(tǒng)的搭建,而不是一個單點模型的突破。因為底層的模型可以迭代,但是框架部分是比較確定的。所以我們認為,像這種框架式的智能體,反而在未來是可以活得比較長的。而且在企業(yè)真正到了面臨轉(zhuǎn)型期的時候,擁有這方面的壁壘反而比單純只是做模型的壁壘要更深。
AI 科技評論:多模態(tài)模型的商業(yè)化機會在哪?
趙天成:一方面我們可以把人類不想做的一系列繁瑣的任務實現(xiàn)自動化,實現(xiàn)從 copilot 到 autopilot ,去重構之前信息化時代的系統(tǒng),諸如 Office 或 ERP 。在 AI 時代,我覺得 AI 原生應用很可能會顛覆這些傳統(tǒng)的服務和模式。
另一個方面,過去大量的行業(yè)知識,都是存儲在個人的大腦里面,但目前有可能通過 AI 把所有知識以行業(yè)為單位進行沉淀,比如在電力領域或者媒體領域,把很多的老師傅的知識吸收進一個模型中,打造一個不斷進化的 AI 行業(yè)專家。
AI 科技評論:趙博士,聯(lián)匯為什么選擇做 2B ?
趙天成: 2B 還是做 2C,是分階段的,我們的戰(zhàn)略是先 2B 夯實公司底座,再 2C 拓展公司上升空間。
具體來說, 2C 業(yè)務對成本比較敏感,而當前階段,大模型的推理成本還比較高,而且這一狀況目前很難改變,除非再過幾年算力資源價格發(fā)生了變化,可能會降低成本;同時 2C 商業(yè)化變現(xiàn)路徑還不清晰;再次,2C 行業(yè)競爭是扁平化、白熱化的。
我們認為要打好公司的 2B 底座,修煉好內(nèi)功,積攢好經(jīng)驗、人才、必要的資金,以一個更加良性的模式去參與 2C 的競爭,有可能初期是通過爆款細分領域的硬件+多模態(tài)大模型的形式切入。所以現(xiàn)在我們是以 2B 為主,大 B 相對來說有能力去承擔數(shù)字化升級的算力成本。
在目前階段雖然還沒有辦法做大規(guī)模 2C 業(yè)務 ,但是我們通過跟運營商合作,用「B2B2C」的方式做 2C 業(yè)務,培養(yǎng) 2C 的商業(yè)sense,為將來正式切入 2C 市場積累經(jīng)驗、人才。比如跟中國移動合作,通過寬帶+AI套餐的方式去服務廣大的 C 端客戶,這樣更適合當下的現(xiàn)狀。
馬駿:目前看到的2B 業(yè)務有兩類,第一類就是來什么客戶去接什么客戶,是一種高度定制化業(yè)務,另一類就是有很強的行業(yè)屬性,摸清一個行業(yè)客戶的共性需求,然后用標準固化的產(chǎn)品去服務這個行業(yè)的客戶,換個詞可能叫 2P(Platform)更合適。
聯(lián)匯更加傾向于后者。只有扎根于某個行業(yè),然后這個把這個行業(yè)做透,才能形成比較好的標準化,而不是刻意為了前期做收入,就什么客戶都接。這里有一個很好的印證就是,聯(lián)匯科技的毛利率水平很高,這也就反映出來它輸出的更多還是標準化產(chǎn)品。
AI 科技評論:聯(lián)匯科技是如何在當下其他家連 PMF 都沒做好的情況下就能做到很高的商業(yè)化營收?
趙天成:理解用戶需求、理解行業(yè)痛點,這是非常重要的前提。
更重要的是,要把整體的節(jié)奏把握好。一方面我們要對今后的重點技術方向進行提前投入,保證在底層技術領域領先市場一步甚至兩、三步,但是對于商業(yè)化產(chǎn)品,我們基本上會保持領先 0.5 步,而不會把步子邁得太大。因為在市場還沒有成熟的時候,去硬推一個可能兩三年之后才會成熟的產(chǎn)品,很可能會成為市場驗證的犧牲品。因此,我們基本上是按照技術領先又產(chǎn)品落地的方式去做。
AI 科技評論:馬博士,從投資人的角度,你會更加看好 2B 還是 2C 的商業(yè)路線?
馬駿:這個可能要分時間維度,短期會青睞 2B,長期對于 2C 還是看好的,一個 2C 產(chǎn)品首先還是要有極致的產(chǎn)品力,其次成本也很重要,如果短期內(nèi)沒有達到成本拐點的話很難讓用戶為 2C 產(chǎn)品付錢,會叫好不叫賣。
假設說,現(xiàn)在要從一個沒什么差異化的 2C 的聊天機器人上收費,那很有可能有些人會選擇直接用 OpenAI ,因為它性能更強,而且價格也不算太貴。除非 2C 產(chǎn)品有非常差異化的產(chǎn)品力,讓用戶覺得好用,要不然的話就是成本足夠低,付很低的費用甚至是不收費。
三、Sora 向左,Gemini 向右
AI 科技評論:目前國內(nèi)外多模態(tài)模型發(fā)展的格局大致是什么樣的?
趙天成:我理解目前國內(nèi)做多模態(tài)有兩條路:
一條路像 Gemini,以語言為核心,在此基礎上把感知層面的音頻、視頻、圖像接進去;
另一條路是 Sora 的路線,以視頻生成和渲染為主,目的在于能夠生成出主體一致、畫面高清逼真的視頻。
這兩條路技術架構完全不一樣,Gemini 是以多模態(tài) Transformer 為主,但 Sora 是以 DIT 的路線為主。
按照這樣的方式來劃分,國外的 Pika、Runway,國內(nèi)的生數(shù)科技、Hidream、愛詩科技等都是走的類似 Sora 的多模態(tài)生成路線。聯(lián)匯科技會更接近于 Gemini ,因為我們的目光還是更多放在智能體上,更關注模型的推理思考和 planning 能力,這種能力的重點和目的并非把一幅畫逼真地畫出來。
AI 科技評論:目前生成式多模態(tài)模型的商業(yè)化現(xiàn)狀是什么樣的?
馬駿:Sora 為代表的視頻生成公司,目前我還沒有看到特別好的商業(yè)化案例。
AI 生成的視頻是否有商業(yè)價值,這個暫時不好判斷。以影視業(yè)為例,多模態(tài)生成模型服務于B端客戶,需要能不能把生成的內(nèi)容植入到原有的業(yè)務流程里,或者植入到他原來的工作軟件里。我個人覺得,這可能是短期內(nèi)比較有價值的事情。
我們也看到, 生成視頻相關的C 端產(chǎn)品具有很強的傳播力,我個人覺得它還是會兌現(xiàn)出很大的價值,就能很快做出一些爆款。
AI 科技評論:聯(lián)匯這樣做技術和商業(yè)化的方式,對標的是哪家公司?
趙天成:聯(lián)匯科技會比較接近硅谷的一家公司叫 Cohere。Cohere 在做的事情是給歐美的大型企業(yè)提供完整的大模型底座和以它為基礎的、降本增效的智能體應用。
在做多模態(tài)模型創(chuàng)業(yè)的過程中,我們會比較關注整個商業(yè)化 ROI 的情況是什么樣的?可能 OpenAI 做 AGI,會不計任何成本的、每年燒幾千個億去做 ,而國內(nèi)不行。我們需要做的是在目前的限定條件下,最大化大模型技術的商業(yè)化 ROI,那限定條件可能包括客戶場景、當前國內(nèi)硬件條件等,而從公司已經(jīng)商業(yè)化落地的項目看,這一限定條件下的最大化大模型技術路線收到了客戶的一致好評。
AI 科技評論:Scaling Law 可能是實現(xiàn) AGI 的路徑之一。當 OpenAI 在去追求 10 萬億或者更大參數(shù)模型的時候,其他大模型公司的競爭力在哪?
趙天成:雖然把參數(shù)堆上去沒問題,數(shù)值堆得越高效果越好。但其實在 B 端場景下面,即便真的推出一個 10 萬億的模型,也不會有任何一個 B 端客戶會愿意為它買單,因為沒有客戶能夠承擔它的算力成本。
在創(chuàng)業(yè)過程中,除了以純粹以研究者的想法追求模型性能外,我們也會把整個公司的運營當成一個「在約束條件下最大化商業(yè)成果」的一個優(yōu)化問題。在當前商業(yè)化過程中,我們把產(chǎn)品的競爭力和服務做到最好,把模型的效率做到最高,并隨著未來硬件環(huán)境的提升逐步進步,每個階段我們都可以提供性價比最高的大模型和智能體產(chǎn)品,我覺得這反而是更具競爭力的。
AI 科技評論:如何做到「在約束條件下最大化商業(yè)成果」?
趙天成:這需要我們不斷追求高效,而聯(lián)匯的高效體現(xiàn)在三個方面:
第一是數(shù)據(jù)高效,我們自己提出了一種高密度的數(shù)據(jù)訓練方式,可以將更多的知識濃縮在相對更少的數(shù)據(jù)上面,用高效的算力去達到更好的效果。
第二是功能高效,以多模態(tài)原生訓練作為核心,如果某個場景只需要有視頻的能力,那我們適配的多模態(tài)模型會原生地把它預訓練在模型里面,給客戶提供他們想要的功能,而不會把算力資源浪費在客戶并不關心的功能上面。
第三是推理高效,推理效率和成本是客戶使用的過程中最關心的。推理加速、模型量化、以更小的參數(shù)量獲得更大參數(shù)量才能達到的效果,這些都是我們研發(fā)的重點。
AI 科技評論:你怎么看待行業(yè)中卷參數(shù)量來大力出奇跡的現(xiàn)象?
馬駿:變現(xiàn)和卷參數(shù)是可以解耦的。從追求天花板的角度來說的話,卷參數(shù)的意義是對標到 OpenAI,這是很有想象力的事情的。但是從實際運營角度,成本也是必須考慮的重要因素,為什么大家都開始做 MoE,就是考慮成本和落地。
AI 科技評論:過去的二十年,移動互聯(lián)網(wǎng)是最大的一波紅利,現(xiàn)在大家也認為這波人工智能浪潮和移動互聯(lián)網(wǎng)有著一樣巨大的機會,你怎么看?
趙天成:是的,隨著大模型的出現(xiàn),人工智能進入了一個新的階段,可以說跨過了一個拐點,能夠真正實現(xiàn)普及應用了,不管是日常生活還是生產(chǎn)制造領域都可以用AI來賦能。
而且,現(xiàn)在不管是中國還是美國都有明顯的生產(chǎn)制造行業(yè)的回流趨勢,大家對制造業(yè)越來越重視,所以,怎么樣讓大模型或者 AI 技術更好地賦能傳統(tǒng)行業(yè),很可能是個很大的機會。無論是能源、制造、生產(chǎn),還是基礎科學研究, AI 有可能真正催生一些不一樣的東西。
AI 科技評論:也就是說這一波 AI 更有機會作用于一些制造業(yè)或技術行業(yè)?
趙天成:現(xiàn)在大家都在問,AI 到底能干嗎?如果說移動互聯(lián)網(wǎng)最賺錢的是推廣告,那么在這一波 AI 又會有哪些新的爆發(fā)點?我認為這次的大模型最大的特點是讓機器真正具有了邏輯思考能力,譬如它可能實現(xiàn)專業(yè)設備的自動化運維,甚至是發(fā)現(xiàn)更好的能源傳輸模式等,真正做到無人化、智能化,在這些方面可能會產(chǎn)生一些以前想不到的東西,這樣的話,這一波 AI 會對制造業(yè)和技術行業(yè)帶來重大變革,因此也有人說,這次AI浪潮是第四次工業(yè)革命。
AI 科技評論:當下的環(huán)境對創(chuàng)業(yè)者并不友好,有什么可改進的方式,怎么給創(chuàng)業(yè)者創(chuàng)造一個好的投資環(huán)境?
馬駿: AI 的 2C 應用肯定是最大的機會,它是離用戶最近的。但是這種應用有多方面原因吧,第一上市的可能性可能不大,第二它的生命周期可能會變短,大家會迅速發(fā)現(xiàn)這個方向賺錢,然后一堆人擠進來了,然后開始內(nèi)卷了。為了應對這一情況,可能需要更靈活地投資的方式。
因為二級市場的退出周期還是太長了。那有沒有可能直接用類似于分紅的形式去投資?回歸到做生意的邏輯,比如有人做 AI 應用,那么你需要多少錢我就投你多少錢,你賺到錢后,我們大家按比例分,這樣退出周期也快,并且可投的 AI 類型的公司也多。
在北美,因為有一個比較好的并購渠道,(所以投資風險沒那么高)但是在國內(nèi)你沒有這么好的渠道,所以我個人覺得,目前怎么去退出是很大的問題。從投資方式的反共識角度來講,也會誕生一些全新的機會,或者全新的投資模式,也希望資本界和這個產(chǎn)業(yè)界去共同做一些創(chuàng)新性的突破。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。