0
縱觀人類信息時代發(fā)展的三個階段,可以以信息收集、信息傳播和信息壓縮來劃分,三者分別對應過去的 PC 時代、移動互聯(lián)網時代、以及正在到來的智能時代。
一個客觀事實是,歷經 PC 時代對信息的收集和獲取、移動互聯(lián)網時代低成本、爆發(fā)式傳播,面對海量的信息,今天對人們提出的挑戰(zhàn)是,如何在無法改變腦容積的前提下,以低損耗、低成本的方式,實現(xiàn)高質量的信息壓縮及提取。
為此,共生矩陣 CEO 張林認為,大模型會是目前最好的信息壓縮機。
自研一個基礎大模型、并進入 C-Eval 榜單前十需要多長時間?共生矩陣給出的回答是,兩個月。從榜單前十擠進前三的位置、又需要多長時間?這次時間縮減了一半,不到一個月。
與激烈的北上地區(qū)大模型創(chuàng)業(yè)公司戰(zhàn)局不同,共生矩陣圍爐深圳,是少數(shù)選擇在南方從事大模型自研的團隊之一。其中,不到十人的規(guī)?!靶《馈保荒陜壤塾嫲l(fā)表頂級論文近 20 篇,多位成員曾就職于IDEA 研究院,過去兩年間在大模型工程上有著深厚積累。
相較于年初的大模型熱浪,有投資人向 AI 科技評論表示,目前大模型賽道的第一輪融資已經完成,行業(yè)將駛入穩(wěn)步發(fā)展階段,業(yè)界對場景化應用、用戶碎片化等需求進一步明確,提高了對通用大模型在工程優(yōu)化、降低成本等方面的要求。
針對這一難題,張林向 AI 科技評論指出,從商業(yè)角度看,革新性技術必然催生新的商業(yè)模式。當前,大模型公司普遍定位為 MaaS 服務,但由于邊際成本過高,這必然會走向失敗。
而更致命的誤解是,這一思維將大模型視為獨立軟件看待,并依此把大模型商業(yè)化定位互聯(lián)網時代的軟件進行售賣,張林表示,“大模型要發(fā)揮價值,必然不能以孤立系統(tǒng)存在,而是成體系的生態(tài),大模型的商業(yè)化也必然立足于某種生態(tài)系統(tǒng)來構建?!?/p>
當前,大模型落地正處于蓄勢待發(fā)之勢,開源可商用的大模型越來越多,憑借公開的源代碼即可基于自身需求做訓練和二次開發(fā),支持微調、門檻低,開源模型也被許多企業(yè)視為最優(yōu)選。對于這種觀點,張林表示,開源模型的出現(xiàn),更多是讓人們可以直觀地感受模型創(chuàng)新的階段,低成本達到教育市場的目的,但在落地環(huán)節(jié)中,開源模型并不會給自研大模型帶來實質性的沖擊。
以下是雷峰網-AI 科技評論與張林的對話,AI 科技評論作了不改變原意的編輯及整理:
GS-LLM 二次上榜
AI 科技評論:共生矩陣成立于今年 5 月份,在這個時間節(jié)點選擇從 IDEA 研究院出來創(chuàng)業(yè)的原因是什么?
張林:長期以來我們都在一線做技術,所以更清楚大模型優(yōu)缺點的所在。
每當一個新技術來臨時,我們總要去追本求源,弄清技術從何而來。GPT 誕生帶來的正面作用是教育市場,告訴大多數(shù)人,技術的發(fā)展已經達到了某個階段,不再是只停留于科幻電影中,而是已經具備了很強的實用能力。
但從另一個角度來說,GPT 并非是未經設想、OpenAI 的科學家突發(fā)性創(chuàng)造的技術,而是在一線科研人員高強度的交互環(huán)境中產生的,OpenAI 的成員會關注其他人的論文,大家也會學習 OpenAI 的工作,技術的進步是由一群人推動、而非某一個具體的人拍腦子就能突然產生。當然,在此之前,大家對 Transformer 以堆參數(shù)量來實現(xiàn)價值的方式還處于猜測階段,但在 2020 年 OpenAI 發(fā)布了論文后,這件事才終于被蓋棺定論。
有數(shù)據(jù)統(tǒng)計,OpenAI 過去幾年燒的錢是 1000 多個億,在短時間內燒這么多錢,這是任何機構都無法想象的,當中所涉及的工程化部分,即便論文開誠布公,但對于向參與到這個級別游戲中的人,門檻極高。因此從格局上看,中國企業(yè)之所以落后一些,我認為根本原因還是窮,而想要追趕到今天 ChatGPT 的表現(xiàn),可能還需要一年多兩年的時間,這個學費是省不了的,沒有所謂的彎道超車。
不要迷信、不要追求極端,只著眼于“復刻”一條路線,而是著眼于目標、走出自己的方法論。
自 C-Eval 榜單發(fā)布以來,一般排名五位之外的時常有變動,但前五模型表現(xiàn)的位置則是許久未有人撼動。我們用了兩個月時間推出自研大模型 GS-LLM-Alpha 、在七月份首次上榜 C-Eval,時隔不到一個月,又發(fā)布全新的 GS-LLM-Beta 版本,再度上榜 C-Eval,并達到了榜單的第三位。
AI 科技評論:評測指標顯示,在 C-Eval 排行榜上幾乎所有模型都要比 GS-LLM-Beta 高一個量級。跟其他模型相比,共生矩陣模型的優(yōu)勢在哪里?
張林:優(yōu)勢是個相對的概念。對規(guī)模更大的研發(fā)機構來說,有充足的卡和人才支撐,他們的大模型可以做得很大,模型的表現(xiàn)更好,例如智譜 AI 的模型比我們的好,因為他們模型更大。但現(xiàn)實情況是,GLM-130B 的部署價格一年高達三千九百多萬,這是絕大部分客戶支撐不起的價格。相較之下,我們的體量比較小,因此,模型成本上也會比其他模型小一個量級。所以我們說,優(yōu)勢不是一個絕對的概念,需要結合場景來看。
站在技術的角度來看,今天我們談大模型商業(yè)化,一個誤解是,有創(chuàng)業(yè)者會認為自己很厲害、別人就理應為我而付費;但從產品側觀察,現(xiàn)實情況則是面對用戶沒有真實接觸過的技術,往往很難走到一個落地的階段。
正如汽車和發(fā)動機的故事,不能因為自己的發(fā)動機做得好、而強迫用戶來購買自己的車,結果用戶發(fā)現(xiàn)坐墊坐不了、方向盤也打不動,客戶需要的是一個能開回家的車,即能在生產場景下發(fā)揮作用、解決問題,并控制好交付的性價比。
AI 科技評論:GS-LLM 單次訓練成本是多少?
張林:我們將成本控制得很低。
首先,我們有一套自己的訓練框架,可自適應不同參數(shù)量級的模型,從 1B 到 200B 都可以兼容,提高訓練效率。同時為了提高生成可控性,我們研發(fā)提出了可控技術,可實現(xiàn)靈活切換數(shù)據(jù)領域。其次在訓練上,團隊成員大都有過訓練大模型的經驗積累,所以我們在模型訓練的試錯次數(shù)減少了,常規(guī)情況下 1 次訓練就可成功??梢钥吹剑鲜龇N種都可一定程度上降低訓練成本。
一個事實是,做過大模型、有能做大模型的人是稀少的,即便如大廠那么多的人力,在過去也沒有過多的人從事大模型技術的研究。而一旦定位成商業(yè)化產品時,還取決于是否有合適的人能夠去做這件事。目前來說,我們具備這個能力,可以將組織效率和技術能提高,并以最低的成本來完成,商業(yè)化的潛力也會更廣。
AI 科技評論:目前融資進度怎么樣?
張林:正在談,各方面還是比較樂觀的。在選擇合作伙伴上,我們看中的一點是,它在整個生態(tài)鏈中能夠有一個較為穩(wěn)健的支撐點。當然了,錢很重要,但共生作為一個在做商業(yè)化推進的公司,我們很重視、也希望能夠得到整個生態(tài)的支持,例如上下游的客戶等一整套體系。
大模型革新商業(yè)模式
AI 科技評論:大模型發(fā)展速度很快,共生矩陣成立至今、三個月過去,你們的路線是否有做調整?
張林:事實上,從決定創(chuàng)業(yè)的第一天起,我們就開始思考要構建怎樣的商業(yè)化體系、如何做客戶。
目前,部分大模型廠商的商業(yè)化構成主要是 API 售賣,模式較為單一,這就導致了在高成本投入后、很難短期內實現(xiàn)大規(guī)模的部署,并不是說我們找到了一個還不錯的解題方法就完成了任務,最終還是要讓客戶愿意為你買單。想清楚了這點之后,我們很清晰地確定了“兩條腿”的路線。
第一,從技術上要把大模型的基礎打磨好,這是我們團隊基本的底色所在。第二,要在第一時間跟真實的客戶接觸。雖然共生矩陣成立的時間很短,但我們的第一個 To B 的客戶已經產生,預期在今年十月簽約的付費客戶會達到 3-4 家規(guī)模。要從行業(yè)的角度出發(fā),在真實的環(huán)境中獲取反饋,而不是困在自己的閉環(huán)邏輯里。只有找到市場真正需要,從用戶的立場上去解決問題,才能持續(xù)成長下去。
AI 科技評論:在客戶方面,共生矩陣瞄準的是哪一類客戶?
張林:這是個很有意思的問題,就是今天我們如何定義行業(yè)。大模型出現(xiàn)后,以前對行業(yè)的定義在今天已不再適用,它是一個新的問題,例如服裝設計、珠寶設計、建筑設計,三者聽起來是完全不同的行業(yè),但從我們的角度來看,其實是一樣的,即它們都有相同的“設計”標簽,提供模型服務的設計方式相同。
從大模型的能力上看,它確實可應用的領域太廣了,什么都可以嘗試。我們聚焦在特定的場景而不是完全按照行業(yè)來區(qū)分。我們現(xiàn)階段重點是金融或者相近的場景進行布局,以商業(yè)閉環(huán)短的需求作為切入點,提供智能化 Copilot。
AI 科技評論:這是否意味著共生矩陣會在很多領域去做交付,那會不會牽扯到過多的人員和精力花在了交付上?
張林:這是一個很好的問題。我們是朝著做標準化產品的目標出發(fā)的,并進行輕量化交付。特別是,很多時候不同客戶在需求上表面看起來不相似的,但是得益于大模型的通用性能,找到共性是比較容易,形成標準產品。
我們也會主動去尋找這個共性,包括幾個方面:第一,從源頭上控制差異化過大的場景,我希望我們交付的內容是可復制的,也就是實現(xiàn)標準化產品,實現(xiàn)快速推廣;第二,從開發(fā)角度出發(fā),專注用戶的核心需求做一個底層足夠好的模型和產品形態(tài),這樣即使我所觸達的客戶類型不同,數(shù)據(jù)不同,只需要在基礎模型之上微調即可。
AI 科技評論:前面你提到大模型“教育”市場,從產品方向出發(fā),它帶來了什么?
張林:大模型給我們帶來了很大的機會,同時也是新的挑戰(zhàn),這是過去 AI 公司所未經歷過的。過去,AI 解決的是一個長的生產業(yè)務中某個環(huán)節(jié),大家對它的期待沒有那么高,只需要把某個小的環(huán)節(jié)做好即可。但今天,大模型對生產鏈條的影響是摧毀性的,以前的鏈路被全部推翻。
大模型的革新,是從底層出發(fā)慢慢向上層邏輯的轉移和打散,從而最終逐漸影響到商業(yè)方向。
AI 科技評論:如何理解大模型對商業(yè)模式的革新?
張林:首先我們要回答,行業(yè)到底是什么東西?在第一產業(yè)中,生產力和崗位的誕生是,先有生產力、再有這個崗位,衍生出相應的行業(yè)。比如空中交通,先有了飛機、才會有航空,并提供航行服務。
我們經常會面臨一些很有意思的現(xiàn)象,科技進程通過媒介信息的介入,對一項新技術會有“放大”的作用。這里的“放大”是個中性詞,它可以把新技術好的一面放大,也能把壞的放大,對前沿技術而言,就產生了一個新的問題,即是否大部分人都具備專業(yè)能力去做判斷。對不同賽道的企業(yè)而言,要接入新技術的門檻也不相同,因此在交流過程中產生的 Gap 也因人而異??梢哉f,商業(yè)化的路徑要往哪里走,我們正是探路的這批人。
舉個例子,過去 AI 技術公司和廠商的合作,假設 A 公司做研發(fā)、B 公司購買服務只需要支付研發(fā)的費用,或 A 公司提供具體的產品、B 公司買,交易流程就結束了。但到了大模型時代,商業(yè)模式完全被顛覆。A 公司做基礎模型,當它同 B 公司發(fā)生用戶關系時,B 公司提供了場景數(shù)據(jù),到底模型效果之所以更好,是因為 A 公司的模型好、還是 B 公司提供了優(yōu)質數(shù)據(jù),這在目前無法得到界定,合同又該怎么簽?這都是需要探索解決的問題。
AI 科技評論:這個問題 OpenAI 回答了么?
張林:一項新技術從出現(xiàn)到快速商業(yè)化,發(fā)展中的一個趨勢我們中國人將其稱為“白菜化”,大模型也是如此。OpenAI 并沒有完全回答商業(yè)化到底該如何做,To C 是否是一個成立的邏輯,目前來看似乎并不確定,因為成本降不下來。
同時,留給 OpenAI 一個更大的問題是,技術該往哪里走、又回到了從 0 開始的狀態(tài)。對于自身模型能力還未達到 ChatGPT、或 GPT-3.5 的機構來說,現(xiàn)階段大家的目標是如何去追趕和實現(xiàn),但對 OpenAI 而言,在砸了這么多錢且已經走通了大模型這條路徑之后,接下來的方向是什么,則沒人知道,需要重新去探索了。
開源模型沒有落地優(yōu)勢
AI 科技評論:目前市面上開源可商用的大模型也很多,如何看待開源模型在競爭中的位置?
張林:許多人討論開源大模型對閉源模型的影響,在我看來,并沒有什么商業(yè)層面上影響。我們也希望它能出現(xiàn),讓更多人可以直觀地去體驗、感受最新的模型能到達什么階段,以低成本的方式實現(xiàn)教育市場的目的,但這并不會從實質上改變什么。
今天玩大模型,我認為最核心的因素是人。
實際上,2023 年之前,在國內真正訓練過大模型、有相關經驗積累的人或者機構,我覺得總人數(shù)應該不會超過 100 人。這種猜測的原因是,首先、要啟動足夠多數(shù)量的機器,具備一定算力集群和資源的機構在全國都是少數(shù)。同時,并不是說在 2022 年年末、或 2023 年年初建立了機構,這批人就自然而然地就會訓大模型了,經驗積累是一個非常漫長的過程,沒有這方面實操經驗的人很難做成。
這些“訓”大模型的人之中,有些會用開源來訓,這種大部分是很小的事情,僅一張卡就能完成、比如 LoRA ,而我們一上來往往是上百張、甚至更多的卡,如 LoRA 這類“訓”大模型的方式,離實際上能夠產生商業(yè)價值的東西太遠了。
簡單來說,首先在訓練方面,開源模型并不會告訴你怎么訓,即便你下載了一個 LLaMA2 的代碼,但前期的數(shù)據(jù)準備、配比等等,并不會有人坐在旁邊告訴你我們在 Meta 是如何訓練的,這個是極其關鍵的技術,這是在開源中無法獲取的,只能靠經驗習得。更重要的是,開源只有預訓練部分,是整個大模型體系中最不重要的環(huán)節(jié),其他的更挑戰(zhàn)的,包括模型優(yōu)化、人類行為對齊模型壓縮,模型控制等,這些都是開源沒辦法提供的。這是一個必須“交學費”的過程,而在企業(yè)中,今天大家都在軍備競賽、迫切的商業(yè)化,絕大部分都給不了讓你在開源中去自己摸索那么長的時間。
AI 科技評論:國內哪些人在做的事情跟共生矩陣類似?
張林:我覺得每家都不一樣的,很難用類似來概括。如果以局外人的視角來看,那我們都是做大模型的公司。但從各自的成長路徑上而言,我們總結自己跟大部分初創(chuàng)公司的不同之處在于,首先,很少有初創(chuàng)公司一上來就提出去談客戶、直接做落地的方式,大部分會經歷一段時間技術沉淀,但共生矩陣從一開始就挑戰(zhàn)了商業(yè)化、并且是 To B 的方式。
To B 企業(yè)的特性之一,由于其數(shù)據(jù)敏感性、所以他們很難接受 API 的方式,而開源模型更多時候也只能完成簡單的任務,最后要做應用,一切的前提還是回到了自主研發(fā)的能力要夠,在此基礎上才能談長期的落地。
AI 科技評論:對創(chuàng)業(yè)公司而言,現(xiàn)階段資本市場也越來越慎重。
張林:談的多、投的少,大家會對你實際的商業(yè)營收能力越來越看重。這也是為什么過去幾個月,國內的模型很多、但我們真正關注的很少,因為大部分機構其實并不理解大模型特性、以及預判商業(yè)化的能力。大部分的信息屬于噪聲信息,不用太關心。最重要的事情,必然只有少數(shù)人能懂。
我們關注的核心應該是真正有哪些人在做有價值的事情,以及關心我們的客戶想要什么樣的產品或服務。
AI 科技評論:你們所關心的核心的人是哪些人?
張林:首先是國內幾家具備大模型研發(fā)的企業(yè)和高校,從技術角度而言,真正能具備帶來這方面改進能力的人機構是極少的,我們需要始終保持在最一線,知道技術在往哪個方向演進,哪怕是一些很微小的變化,都需要留意它的可能性。
另一方面,我們關注市場的變化。我們相信,商業(yè)層面的關心直接從客戶中得到反饋更具價值。例如我們很早就排除了做 API 供應的可能性,客戶面窄、接受程度不高,它的價格決定了能夠付費的只會是少數(shù)高凈值、企業(yè)規(guī)模達到一定量級的大企業(yè);而面對大部分中小客戶,他們所面臨的問題就是沒那么多錢。所以要接地氣,走到真實的場景當中去,看看你以什么樣最低的成本能讓用戶去接受、并長期地將這件事做下去。邊際成本需要降低到一個門檻才能真正意義上實現(xiàn)大模型的商業(yè)化繁榮。
(雷峰網(公眾號:雷峰網)雷峰網)
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。