0
據(jù)不完全統(tǒng)計(jì),ChatGPT 發(fā)布不過半年,中國已經(jīng)發(fā)布接近 40 個(gè)類 ChatGPT 的大模型產(chǎn)品。
這一數(shù)字表明,AI 大模型進(jìn)入了「諸神之戰(zhàn)」的階段,入局的玩家不僅有 BATH 等大巨頭,還有商湯、網(wǎng)易、360等某個(gè)細(xì)分賽道的行業(yè)小巨頭。5月6日,科大訊飛也在合肥發(fā)布了訊飛「星火」認(rèn)知大模型。
然而,隨著大模型的數(shù)量越來越多,類 ChatGPT 的探索類應(yīng)用也相繼激增,不同類型的玩家在這場(chǎng)惡戰(zhàn)中的辨識(shí)度卻越來越趨同。GPT 時(shí)代,大巨頭與小巨頭如何分兵作戰(zhàn),成為一個(gè)需要集體探索的問題。
每一項(xiàng)高門檻的新技術(shù)都會(huì)改革現(xiàn)有市場(chǎng)的權(quán)力格局,且出現(xiàn)幾家大巨頭。
以云計(jì)算為例。云計(jì)算在國外最早的名稱是「Utility Computing」(效用計(jì)算),是一個(gè)經(jīng)濟(jì)學(xué)用語,指代經(jīng)濟(jì)社會(huì)的公用基礎(chǔ)設(shè)施。與電力、通信相同,云計(jì)算也在不同地區(qū)的發(fā)展中誕生了幾家大廠商,如美國的微軟云、谷歌云、亞馬遜云,中國的阿里云、騰訊云、華為云、百度云等。
大模型同樣是智能時(shí)代的基礎(chǔ)設(shè)施,因此行業(yè)人士分析,在 GPT 時(shí)代,或真正的人工智能時(shí)代,智能算法就像電力一樣,不是所有玩家都能建得起發(fā)電廠,所以必將誕生幾個(gè)頭部的「大模型運(yùn)營商」。目前,國內(nèi)大玩家正遵循這個(gè)路線:底座做通用大模型,To C,然后在通用大模型的基礎(chǔ)上建行業(yè)垂類大模型,To B,通過 B、C 聯(lián)動(dòng)的方式筑圍墻,建立自己的生態(tài)。毫無疑問,小巨頭在其中,很難突圍。
然而,誠如上述,頭部巨頭的格局還在發(fā)展中,乾坤未定。此外,盡管大巨頭有實(shí)力幫助行業(yè)建立垂類大模型,但在實(shí)際操作中卻難以兼顧所有細(xì)分行業(yè)。因此,「其他玩家在細(xì)分賽道縱深,結(jié)合行業(yè)的 Know-How 做垂類大模型,還是有機(jī)會(huì)的?!?/p>
科大訊飛的「星火」就抓住了這個(gè)突破口。雷峰網(wǎng)
科大訊飛董事長(zhǎng)劉慶峰發(fā)布「星火」認(rèn)知大模型
劉慶峰在星火發(fā)布會(huì)上介紹,星火認(rèn)知大模型將走「1+N」的路線,其中「1」指通用認(rèn)知智能大模型,「N」是大模型在教育、辦公、汽車、人機(jī)交互等各個(gè)領(lǐng)域的落地。換言之,星火在技術(shù)研發(fā)上是通用大模型,落地上則是行業(yè)垂類大模型。雷峰網(wǎng)
這個(gè)玩法兼顧技術(shù)、用戶與賽道,能夠發(fā)揮訊飛的特長(zhǎng),規(guī)避資源調(diào)度的短板,開辟了一條小巨頭搶跑 GPT 的新路徑。雷峰網(wǎng)
01 訊飛憑什么?
相比其他玩家,訊飛的入局并不令人意外。
作為一家人工智能企業(yè),科大訊飛經(jīng)過 20 余年的發(fā)展,在大眾還未看清一項(xiàng)新技術(shù)的荒蕪期就有將語音從 0 到 1 、再到 100 的成功經(jīng)驗(yàn),成為國內(nèi) AI 賽道的巨頭,長(zhǎng)年霸榜中文語音市場(chǎng)第一,是產(chǎn)學(xué)研探索的佼佼者。同樣,大模型也有濃厚的學(xué)術(shù)氣質(zhì),走向市場(chǎng)化需要成功創(chuàng)業(yè)者的領(lǐng)航。
此外,自成立以來,科大訊飛的目標(biāo)就是實(shí)現(xiàn)機(jī)器的跨模態(tài)智能。ChatGPT 之前,語音是訊飛探索機(jī)器智能的第一步;去年 11 月 30 日 OpenAI 發(fā)布 ChatGPT 后,大家開始看到以語言為核心的認(rèn)知智能大模型是邁向通用人工智能(AGI)的關(guān)鍵路徑之一,訊飛團(tuán)隊(duì)也自然而然地加入了大模型的探索中。
據(jù)雷峰網(wǎng)此前在 2021 年與訊飛研究院的交談,早在大模型火起來之前,訊飛研究院就已經(jīng)將認(rèn)知與語音、視覺并列為研究院的三大重點(diǎn)方向,其中,自然語言處理(NLP)是認(rèn)知研究的核心。2012年,訊飛就已經(jīng)開始用深度學(xué)習(xí)技術(shù)研究 NLP。
2014年,科大訊飛啟動(dòng)「訊飛超腦」計(jì)劃,開始儲(chǔ)備認(rèn)知智能技術(shù)(機(jī)器閱讀理解、邏輯推理、分析歸納、知識(shí)表達(dá)等),希望機(jī)器從「能說會(huì)說」到「能理解會(huì)思考」;2017年,訊飛獲批承建認(rèn)知智能國家重點(diǎn)實(shí)驗(yàn)室;2022年,訊飛提出「訊飛超腦2030計(jì)劃」,讓機(jī)器懂知識(shí)、善學(xué)習(xí)、能進(jìn)化。
長(zhǎng)期主義精神,使訊飛儲(chǔ)備了穩(wěn)定的人才團(tuán)隊(duì),其中不少成員是與訊飛多年一起成長(zhǎng)的博士生;成熟的計(jì)算資源,目前已建成 4 城 7 中心深度學(xué)習(xí)計(jì)算平臺(tái);同時(shí)有訊飛語音的產(chǎn)品聯(lián)動(dòng)等原因,是科大訊飛能在五個(gè)月內(nèi)成功研發(fā)并推出大模型產(chǎn)品「星火」的核心原因。
BERT 與 GPT-3 出來時(shí),國內(nèi)就已經(jīng)出現(xiàn)一波大模型的研究熱潮,各大參數(shù)規(guī)模持續(xù)攀升,千億與萬億參數(shù)規(guī)模的大模型不在少數(shù),但在「智能涌現(xiàn)」方面卻與 ChatGPT 背后的技術(shù)有很大差距。
劉聰分析,除了技術(shù)細(xì)節(jié),ChatGPT 做對(duì)了兩件事:一是在產(chǎn)品體驗(yàn)上有明顯的效果提升,二是選取了一個(gè)有大量活躍用戶的應(yīng)用作為切入口,建立了「用戶調(diào)用—數(shù)據(jù)—模型迭代—更多用戶—更多數(shù)據(jù)」的積極循環(huán),強(qiáng)者恒強(qiáng)。
所以,在星火認(rèn)知大模型的研發(fā)上,科大訊飛格外注重兩塊工作,并在發(fā)布會(huì)現(xiàn)場(chǎng)的實(shí)時(shí)演示中獲得了一眾好評(píng):
一是創(chuàng)新人機(jī)交互方式,在原有單一文本輸入的交互上加入了訊飛擅長(zhǎng)的語音輸入和輸出,甚至還提前劇透了后續(xù)即將推出的多模態(tài)交互成果,例如有數(shù)字虛擬人等,能夠做到語音、文本、圖像、視頻等多種模態(tài)的無縫連接,提升多風(fēng)格數(shù)字內(nèi)容生產(chǎn)效率;
二是曲線救國,在不擅長(zhǎng)社交產(chǎn)品的情況下,選取同樣能聚集大量活躍用戶的社會(huì)剛需應(yīng)用,如教育、醫(yī)療、出行(智能座艙),在已有的軟硬件產(chǎn)品(訊飛錄音筆、辦公本、訊飛聽見等)上落地,跑通「算法-用戶-數(shù)據(jù)」的閉環(huán)。
「星火」認(rèn)知大模型具備七大核心能力,即多風(fēng)格多任務(wù)長(zhǎng)文本生成、多層次跨語種語言理解、泛領(lǐng)域開放式知識(shí)問答、情景式思維鏈邏輯推理、多題型步驟級(jí)數(shù)學(xué)能力、多功能多語言代碼能力、多模態(tài)輸入和表達(dá)能力?,F(xiàn)場(chǎng)實(shí)測(cè)效果展示了以下特色:
理解能力強(qiáng),「情商高」,具備一定的常識(shí)認(rèn)知水平,對(duì)生成的內(nèi)容質(zhì)量有很大幫助:
場(chǎng)景特征十分突出,如家教輔導(dǎo)、居家咨詢,體現(xiàn)了「讓機(jī)器人走進(jìn)千萬家庭」的初心:
總結(jié)來說,當(dāng)前的星火認(rèn)知大模型在多類語言任務(wù)上的表現(xiàn)不輸于國內(nèi)其他大模型,水平追求甚至更上一層樓,部分任務(wù)的結(jié)果不亞于 ChatGPT??拼笥嶏w董事長(zhǎng)劉慶峰還稱,5月6日星火大模型發(fā)布后,科大訊飛還有信心在 2023 年內(nèi)實(shí)現(xiàn)三個(gè)迭代節(jié)點(diǎn):
6月9日,實(shí)時(shí)問答與多輪對(duì)話的開放式問答能力進(jìn)一步提升;8月15日,代碼能力與多模態(tài)交付能力提升,并正式向客戶開放;10月24日,趕超 ChatGPT,英文能力與 ChatGPT 持平,中文能力超越 ChatGPT。訊飛「星火」成功躋身國內(nèi)中英雙語大模型行列。
憑借之前在教育、醫(yī)療等細(xì)分領(lǐng)域的深厚積累,「星火」在落地具體產(chǎn)品上的表現(xiàn)也較為出色。如發(fā)布會(huì)上展示的四大成果:星火+訊飛聽見,可以實(shí)時(shí)整理轉(zhuǎn)寫后的錄音文檔,智能總結(jié);星火+AI 學(xué)習(xí)機(jī),幫助小朋友改作業(yè),解放家長(zhǎng)的輔導(dǎo)工作量;星火+智能辦公本,自動(dòng)整理會(huì)議紀(jì)要;星火+智能座艙,出行協(xié)助停車、覓食、天氣咨詢、景點(diǎn)咨詢等等。
一位現(xiàn)場(chǎng)觀眾告訴雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)),「訊飛星火實(shí)測(cè)的效果比我預(yù)想的要好」。這也間接說明,隨著大模型的訓(xùn)練方法越來越公開,技術(shù)理論不再是大模型應(yīng)用落地的壁壘。類似科大訊飛這樣的企業(yè)雖然體量不是最大的,但一樣能參與到追趕 GPT 的浪潮中。
大模型市場(chǎng)化的布局與挑戰(zhàn),更考驗(yàn)小巨頭的生存能力。
02 訊飛的思考
谷歌的沮喪在于雖然掌握了 Transformer,卻不知道如何捕捉其中的價(jià)值。GPT 降臨后,大模型廠商的困惑則在于:如何在同質(zhì)化嚴(yán)重的產(chǎn)品服務(wù)中殺出一條血路?
要回答這個(gè)問題,資源分配的先后順序、產(chǎn)品形態(tài)的想象能力,以及商業(yè)模式的設(shè)計(jì),都是答案的關(guān)鍵組成部分。如果找不到答案,現(xiàn)有的大模型玩家很可能陷入相同的沮喪,在他人所定義的新時(shí)代中從巨頭降維打擊,逐漸失去競(jìng)爭(zhēng)力與規(guī)模優(yōu)勢(shì),消失在 GPT 時(shí)代的市場(chǎng)版圖中。
大模型火起來之后,人們開始懷念喬布斯,以及他那句著名的臺(tái)詞:「我們要人們還不知道自己想要什么的時(shí)候,設(shè)計(jì)出他們需要的事情?!勾竽P偷膶傩酝瑯咏o了人們這種感覺:在面向未來的未知中創(chuàng)造;唯一的變化是,創(chuàng)造的能力,從蘋果公司的研發(fā)團(tuán)隊(duì),移交到了普通用戶的手中。掌握技術(shù)的企業(yè)家,將在資源與商業(yè)模式上決一勝負(fù)。
在這個(gè)背景下,科大訊飛做對(duì)了兩件事。
第一件事是重視用戶的產(chǎn)品體驗(yàn)。
這一點(diǎn)體現(xiàn)在語音輸入為代表的交互模式創(chuàng)新上。以 GPT-4 為例,多模態(tài)內(nèi)容的交互體現(xiàn)出了對(duì)機(jī)器智能的積極影響,科大訊飛也同樣信奉這條精神,以長(zhǎng)遠(yuǎn)眼光布局多模態(tài)交互,將語音、圖像、視頻與文本數(shù)據(jù)并駕齊驅(qū),打造了更加符合人類信息交流習(xí)慣的交互方式,可以讓用戶在跟機(jī)器交流時(shí)的體驗(yàn)更自然。
得益于其在中文語音市場(chǎng)的縱深,科大訊飛以點(diǎn)成線、由線成面,在教育、醫(yī)療、出行與辦公等領(lǐng)域均積累了相當(dāng)?shù)拿麣?,同時(shí)有豐富的用戶與機(jī)器交互的數(shù)據(jù)。訊飛開放平臺(tái)的日使用量超過50億人次;行業(yè)維度,以醫(yī)療為例,科大訊飛是全國唯一通過國家執(zhí)業(yè)醫(yī)師資格考試的人工智能系統(tǒng),超過了 96.3% 的醫(yī)學(xué)考生,已累計(jì)為基層醫(yī)生提供了超過 5.8 億次、日均超過 70 多萬人次的人工智能輔診。
訊飛的另一個(gè)優(yōu)勢(shì)是多語種知識(shí)理解,這得益于此前語音處理上的多語種產(chǎn)品經(jīng)驗(yàn)。星火大模型就是國內(nèi)少有的走中英雙語路線的技術(shù)方案之一。多模態(tài)與多語種的知識(shí),讓訊飛的大模型具備更強(qiáng)的認(rèn)知與理解能力,減少大模型「胡說八道」的次數(shù),提升用戶的內(nèi)容生成質(zhì)量。
在打造產(chǎn)品形態(tài)上,星火認(rèn)知大模型作為發(fā)揮通用大模型作用的「1」,落在具體的硬件產(chǎn)品上,可以更加可控、安全、流暢,對(duì)訊飛產(chǎn)品的用戶友好。
第二件事是商業(yè)化模式的踏實(shí)作風(fēng)。
與掌握云計(jì)算的大廠商或 NLP 初創(chuàng)團(tuán)隊(duì)不同,根據(jù)訊飛研究院的院長(zhǎng)劉聰介紹,星火認(rèn)知大模型目前首先聚焦于現(xiàn)有硬件產(chǎn)品與開發(fā)者生態(tài)。
據(jù)訊飛官方數(shù)據(jù),在教育行業(yè),2022年,訊飛的個(gè)性化學(xué)習(xí)手冊(cè)在1400所學(xué)校商業(yè)化運(yùn)營,實(shí)現(xiàn)營收同比增長(zhǎng)12%,2023年Q1同比增長(zhǎng)超過40%;AI 學(xué)習(xí)機(jī)營收同比增長(zhǎng) 53%, 2023年Q1營收同比增長(zhǎng)超過 20%。
2022年,訊飛業(yè)務(wù)增長(zhǎng)23%,23年Q1毛利率有一定回升。今年,科大訊飛對(duì)B端和G端項(xiàng)目都提出了明確的利潤考核。在降本增效上,訊飛也想用大模型給自身業(yè)務(wù)降本。
在平衡通用與行業(yè)兩類大模型上,科大訊飛的計(jì)劃是遵循多年來的模式:平臺(tái)+賽道。
目前,AI 工具還是更多地掌握在開發(fā)者的手中,因此 HuggingFace、LangChain 等平臺(tái)的價(jià)值更高,因?yàn)檫@些平臺(tái)本來就是開發(fā)者的平臺(tái)。
科大訊飛董事長(zhǎng)劉慶峰在發(fā)布會(huì)上表示,訊飛開放平臺(tái)上此次升級(jí)的認(rèn)知能力將不僅會(huì)給開發(fā)者提供更好的技術(shù),還能降低創(chuàng)業(yè)門檻;同時(shí)還會(huì)開放插件,讓大家在星火大模型中直接使用到插件的能力。
擁抱通用人工智能時(shí)代,「要么最先燎原,要么最先熄滅」,最終結(jié)果無非二選一或介于兩者之間。但無論是哪一種,訊飛已點(diǎn)燃星火,加入了牌局中。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。