0
2016年12月23日,北京的樹上早就掛起了絲絲條條的彩燈,距離圣誕節(jié)還有兩天,吹著微微的北風,周五的街道并不冷清。
而在這天,北京海淀的768園區(qū),劉知遠帶著幾個博士生,敲開了知乎合伙人李大海的大門。
不同于今天,智源學者、清華大學計算機系副教授的名號加身,2016年冬天的劉知遠,還只是清華研究 NLP 的一個助理教授,雖然有了一些成績,但仍然算是“名不見經(jīng)傳”。
這次來找李大海,劉知遠想要的是“借用”知乎的數(shù)據(jù)。在知乎,用戶的回答更專業(yè),質量也更高——對于 NLP 研究來說,是相當上乘的語料數(shù)據(jù)。
有人曾把當下互聯(lián)網(wǎng)范式的轉移,形容成從“分發(fā)信息”到“分發(fā)知識”的轉變,知乎作為一個著力傳遞知識和見解的平臺,自然被認為是 AI 2.0時代的“前頭兵”。
劉知遠博士師從孫茂松院士,后留校清華,從博士算起,他彼時已經(jīng)在自然語言處理的領域,深耕了十年之久。能得到知乎的數(shù)據(jù),自然對研究是如虎添翼。
但數(shù)據(jù),幾乎算得上是一家互聯(lián)網(wǎng)公司的“命門”,劉知遠早就做好了被拒絕的準備,而李大海的反應卻異常地爽快。
2016年冬天,李大海加入知乎不過一年的時間。不同于劉知遠在象牙塔一路攀升,李大海自己形容自己,是個“愛折騰”的人,在谷歌和豌豆莢都有過任職。在離開谷歌后李大海一直是創(chuàng)業(yè)狀態(tài),靠著在工業(yè)界深厚的積累,獲得了知乎的認同。
早在見面之前,李大海就對劉知遠莫名地親切,不僅僅是因為劉代表的是清華,推動這項合作,本質上推動的是 NLP 領域的產(chǎn)學研結合;也是因為李大海早在谷歌和豌豆莢,就以搜索業(yè)務的研發(fā)見長,與劉知遠所研究的自然語言處理脫不開干系,雖然兩人經(jīng)歷迥異,但也算殊途同歸。
把劉知遠接進辦公室,不需多言,李大海就知道,面前的這個年輕學者,務實、客觀,對技術路徑的判斷相當精準。
短短聊了半個小時,李大海和劉知遠將合作就=敲定了下來——不需要支付任何費用,一紙 NDA(保密協(xié)議)簽好,知乎的語料數(shù)據(jù)就對劉知遠開放了。
一晃6年過去,今天李大海的身份,已經(jīng)不僅是知乎的 CTO,更兼任了劉知遠所創(chuàng)辦的面壁智能的 CEO,成為了兩家公司在大模型方面溝通合作的橋梁。
說起關注大模型的時間點,李大海的第一反應是“慚愧”。
“我對這件事情經(jīng)常反思,對我在這個點上的技術判斷不滿意?!崩畲蠛Uf起這話時,對自己高要求的苛責,幾乎寫在了臉上。
盡管早在 ChatGPT 在科技圈“激起千層浪”之前,李大海和知乎的算法團隊,早就關注到了大模型的可能性, 并且嘗試過 BERT 架構的模型,也留意著技術變化的趨勢。然而,李大海坦言,直到大模型成為一門顯學之前,都沒預想過技術的突破會來得這么快。:
“過去,我們把工作重點放在前端的推薦、搜索等業(yè)務中,對于大模型主要以應用為主,當然也一直在跟進大模型最新的成果為業(yè)務所用?!?/p>
在 ChatGPT 強勢登場之后,人們驚呼,科技界的下一個“iPhone 時刻”將至。而在幾個月的持續(xù)觀察與發(fā)酵之后,人們這才發(fā)現(xiàn),把大模型類比“iPhone”,可能野心太小——大模型很可能是新的“蒸汽機”,帶來的機遇不僅限于某個領域,而是全社會大多數(shù)領域的重構。
本該早就看到這個趨勢,至今想起,李大海仍然覺得遺憾。
盡管一時落后,李大海仍想迎頭趕上,讓知乎快步追上大模型的浪潮,這時他想起了劉知遠。
2018年,應和著 BERT 的出現(xiàn),劉知遠和團隊就開始做預訓練,后又和唐杰、文繼榮、黃民烈三人一起,在智源開展大模型的研究,是中國第一批開展大模型研究的研究者之一(關于劉知遠、唐杰、文繼榮、黃民烈等人的大模型研究故事,后續(xù)雷峰網(wǎng)還將推出《大模型產(chǎn)學研的前世今生》, 講述四位學者的大模型夢,以及他們與阿里、華為等大公司的合作和在AGI浪潮到來之前,與其他大模型創(chuàng)業(yè)公司的參與度,敬請期待)
而劉知遠在2021年創(chuàng)辦的面壁智能,不僅有多年來留下的技術積累,而且已經(jīng)訓練出他們自己的大模型 CPM-Bee,并且開放了 API。
23年2月,知乎和面壁談過初步的合作后,李大?;氐街酰途o急地開展了一次技術評估,把面壁的代碼——無論是訓練還是推理——都看了一個遍,又評估了面壁的模型 API,跑了大量的問題,最終測試結果出人意料地好。
彼時,大模型的人才爭奪戰(zhàn)剛剛打響,面壁收到了好幾家公司的誠心邀約,最后選擇了與知乎合作。
談到和面壁最契合的地方,李大海說,知乎和面壁的團隊,最大的共同點是,大家都是相信技術的人——相信技術能改變世界,如此也就更純粹,討論問題時更加實事求是。
與面壁合作,知乎并非“只出錢不出力”,自從大模型起勢,知乎也快速組建了大模型的團隊,與面壁團隊一起進行深度共建。知乎參與過大模型相關項目的開發(fā)的人員數(shù)也不少。
除了出技術,知乎也為面壁提供管理上的協(xié)助——這樣的協(xié)助,莫過于李大海的“肉身”加入。
2023年的面壁,苦 CEO 久矣——成立一年半,面壁的團隊絕大部分成員仍以工程師構成,對于一個初創(chuàng)團隊來說,全員極客、專注開發(fā)的路線并沒有太大問題,但牽涉到后續(xù)的融資、戰(zhàn)略等問題,面壁的成員沒有經(jīng)驗。
而李大海加入知乎已有8年,除了作為 CTO 為公司規(guī)劃技術路徑,也作為執(zhí)行董事深度參與了公司的戰(zhàn)略層決策,并且他也有合伙創(chuàng)業(yè)的經(jīng)驗,對于面壁來說,是極為合適的 CEO 人選。
獲得了知乎創(chuàng)始人、CEO周源首肯,李大海來到了面壁出任 CEO,一方面幫助面壁更好地做戰(zhàn)略的規(guī)劃和制定,一方面也讓知乎和面壁的戰(zhàn)略合作更加緊密,算是兩全其美。
有李大海的工程化和管理經(jīng)驗,也有劉知遠作為國內(nèi)頂尖 NLP 專家的技術實力;有知乎的活躍社區(qū)和優(yōu)秀語料,也有面壁在大模型訓練和開發(fā)上深厚的積累,這兩家公司的合作,可能促成了中國大模型最強大的一樁“珠聯(lián)璧合”。
說完“紙面實力”,知乎和面壁的核心優(yōu)勢在哪里?
影射多年前的“千團大戰(zhàn)”,越來越多人開始用“千模大戰(zhàn)”來形容今天大模型賽道的競逐——行業(yè)普遍認為,盡管做大模型需要投入大量資源,但由于大模型的結構不存在秘密,算法已經(jīng)不構成企業(yè)壁壘。大模型“有門檻、沒壁壘”的特點,使得諸多”跑步進場“的團隊一邊倒向 C 端類 ChatGPT 的研發(fā),同質化嚴重、與行業(yè)需求差距大等問題開始顯現(xiàn)。
而從另一個方面看,如果將AI時代的大模型比喻成電氣時代的電力,當人們認識到電力的價值,之后會有水電、風電、核電等多種多樣的“發(fā)電手段”不斷演進,不斷降本增效;未來的大模型也是如此,比拼的核心是成本和效率,競爭的重點是應用和生態(tài)。
這一點從今年上半年國內(nèi)大模型產(chǎn)品發(fā)布的情況也能看出:通用大模型的發(fā)布熱潮已經(jīng)回落,近兩月來,大模型公司已經(jīng)迅速將重心從 To C 轉向 To B,大模型的落地應用場景、私域數(shù)據(jù)的儲備、技術團隊的產(chǎn)品能力成為大模型差異化競爭的關鍵因素。
知乎和面壁合作的“知海圖”大模型,瞄準的也正是知乎的場景和數(shù)據(jù)與大模型的深度結合。
歸根結底,知乎是一家互聯(lián)網(wǎng)公司,雖然技術上要向大模型傾斜,但大樹有根,知乎的根在業(yè)務上。
圍繞著業(yè)務,知乎在數(shù)據(jù)上的優(yōu)勢也能得到充分的發(fā)揮,同時通過提升用戶對產(chǎn)品的體驗,把公司的“錢袋子”守住。有了更多使用、更多的數(shù)據(jù),大模型的“飛輪”也就能更好地飛轉起來,再去向 B 端公司推廣,也更有底氣。
在這樣的邏輯下,李大海給知乎大模型,設計了一個“三步走”的戰(zhàn)略。
高質量、有人文的社區(qū),一直是知乎最重要的財富,正是依托這個社區(qū),知乎才能持續(xù)產(chǎn)出令用戶喜愛的內(nèi)容,進而保持粘性、完成增長。
針對這種情況,知乎大模型的應用場景,首先并不是喧賓奪主地“生成”,而是識別用戶產(chǎn)出的內(nèi)容。
“對我們來說,識別是必須的,”李大海對雷峰網(wǎng)(公眾號:雷峰網(wǎng))說道,“識別能讓我們更精細地理解用戶,來支持產(chǎn)品運營同事的工作,進而幫助我們更好地把這個社區(qū)建設好。”
除了識別“人”產(chǎn)出的內(nèi)容,知海圖一項同等重要的工作,是檢測 AI 生成的內(nèi)容。
ChatGPT 的登場,讓很多人看到了 AI 創(chuàng)作的可能。在知乎上,也出現(xiàn)了不少搬運 AI 創(chuàng)作的情況存在。
而知乎,在創(chuàng)始人們的初心里,仍然是一個“以人為本”的社區(qū)。雖然對于 AI 生成的內(nèi)容,知乎的態(tài)度是開放的;但如果一個用戶,只搬運生成式 AI 的產(chǎn)出,那對于知乎來說,未免有些本末倒置。
一方面是要識別出這樣的賬號,一方面也要識別出 AI 生成的內(nèi)容,做好“AI 創(chuàng)作”的標注,讓平臺內(nèi)容標準、合規(guī)。
推薦引擎,常常被不少人認為是可以利用大模型“重構”的技術之一,在技術上也有繼承和發(fā)揚。
基于對語言更好的理解,來讓用戶在平臺上獲得更好的信息獲取體驗,大模型可以說是“恰到好處”。
李大海原本就是搜索引擎出身,而劉知遠也在 NLP 領域有近20年的經(jīng)歷,知乎和面壁在這個領域,可以說輕車熟路。
如果說,大模型在內(nèi)容識別上的內(nèi)容,做的大多是“幕后工作”;那么“搜索聚合”在搜索和熱榜上的內(nèi)測,就是知乎 AI 實力“猶抱琵琶半遮面”的一次展示。
在大模型的幫助下,用戶能更快找到他需要問題的答案,也能在生成式 AI 的輔助下,節(jié)省下瀏覽諸多答案、歸納總結信息的時間,讓用戶直接閱讀高質量回答的梗概。
知海圖的內(nèi)測還剛剛開始,李大海對雷峰網(wǎng)表示,目前還沒有更多的信息透露出來,但預計在第三季度的七八月左右,會有一個階段性的成果展現(xiàn)。
從識別到推薦,第三階段,知乎對知海圖的期待,則是輔助用戶在平臺上的創(chuàng)作。
李大海表示,知乎做 AI,最終關注的還是,如何讓 AI 幫助更多用戶在內(nèi)容上做生產(chǎn),如何保持社區(qū)的高質量,保持知乎原本的味道。
要做到這一點,一方面,大模型輸出的內(nèi)容質量要足夠高,讓用戶能用得方便放心——這是大模型的基本功,知海圖要有;另一方面,則是要根據(jù)用戶個人的語言風格和敘事方式,做個性化的用戶助手,幫助每一個用戶產(chǎn)出屬于他們自己的內(nèi)容,避免 AI 生成內(nèi)容的“千人一面。
在今天,知海圖的能力已經(jīng)從 NLP 逐漸像多模態(tài)邁進,在5月底的中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,知乎和面壁聯(lián)合推出的知海圖,不僅宣布了開始大模型在搜索、熱榜上的應用,也同樣展示了知海圖的多模態(tài)能力:
“我們上傳了一張小男孩的照片,我們的 AI 不僅能識別出小男孩的主題,也能通過他的面部表情,識別出他憤怒的情緒?!崩畲蠛Uf道。
大模型能做的事越來越多,這也迫使知乎開始思考一個難以被繞過的問題:在未來,人類創(chuàng)作者,會被AI所取代嗎?
原先,知乎曾經(jīng)想過,要不要給知海圖也做一個知乎的賬號,讓 AI 在知乎上回答用戶的問題——很多人都有過這個設想,畢竟這和時下生成式 AI 和知乎的產(chǎn)品特性相當契合。
但在深思熟慮后,李大海的態(tài)度仍然相當謹慎:
“在我們看來,AI 應該是人的能力擴充,而非替代。有些精品的內(nèi)容,創(chuàng)作者要2天才能完成,在 AI 的幫助下,我們希望讓創(chuàng)作者用2個小時就能產(chǎn)出內(nèi)容——但這2個小時,仍然還是需要他去自己創(chuàng)作的?!?/p>
從2016年冬天,李大海和劉知遠初遇,到2023年春天,李大海兼任面壁智能 CEO,六個寒暑的光陰,再兩人山上看似沒有留下多少痕跡,他們投身的事業(yè)卻開始匯入時代的洪流。
6年過去,李大海仍然是多年前的那個自己,并不“安分”。早在谷歌業(yè)務退出中國時,盡管編制還在,但李大海卻決意離開——他要在中國做產(chǎn)品,服務中國用戶。
而當大模型浪潮涌來,李大海不動不搖,張開臂膀,擁抱急流。
在知乎,他的精力一門心思撲在大模型上,決心用 AI 2.0 的技術重構知乎現(xiàn)有的技術架構;
在面壁,他得以運籌帷幄,執(zhí)掌公司在商業(yè)和戰(zhàn)略的運作,發(fā)揮他在技術之外的實力和遠見。
而劉知遠,在大模型的技術趨勢剛剛到來的 2018 年,就已經(jīng)敏銳地看到了這個趨勢,并從 2019 年開始把實驗室的研究方向從傳統(tǒng)的 NLP 命題中撤出,全面圍繞大模型的方方面面展開。
李大海把這贊譽為一種“技術胸襟”——就如同一個技藝高超的馬車匠人,第一次遇到了蒸汽火車,多少人難以接受,多少人抱怨,但最早轉型的人,往往就能越早占領先機。
知乎和面壁智能,人才密度高,密度背后有優(yōu)質語料數(shù)據(jù)、深厚技術底蘊和產(chǎn)品落地場景的支持,已然是一股不能被輕易忽視的力量。
今天,李大海仍然在多年前,與劉知遠初次見面時的那個辦公室伏案工作。而面壁的團隊也同樣務實、低調,常常騎著自行車穿過學院路,來到768園區(qū)和知乎的團隊探討工作。
這顆在6年前被種下的種子,在大模型的時代終于開花結果。而中國大模型的未來,正是以李大海、劉知遠為代表的技術理想主義者和實干者手中,于無聲處等待厚積薄發(fā)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。