0
很多從業(yè)者都在問,最近特別火的ChatGPT和它背后的通用人工智能(AGI)與AR之間究竟有什么關(guān)系?
杭州靈伴科技聯(lián)合創(chuàng)始人向文杰給出了答案。
“未來人類跟通用人工智能的交互方式具有兩個特點:第一是自然交互,第二是多模態(tài)。從這個角度來看,AR是人類與通用人工智能之間交互的入口,也是最佳載體,AR代表了未來的交互方式。”
聚焦于人機交互技術(shù)的杭州靈伴科技在九年成長史中多次轉(zhuǎn)型、自我革新,見證了AR行業(yè)從興起到爆發(fā)的歷程。
眼下,以ChatGPT為代表的通用人工智能技術(shù)來勢洶涌,當AR遇上通用人工智能技術(shù)又會有什么化學(xué)反應(yīng)?
近日雷峰網(wǎng)與杭州靈伴科技聯(lián)合創(chuàng)始人向文杰進行了探討。
以下為雷峰網(wǎng)和向文杰的對話:
未來的大模型像云計算一樣,變成基礎(chǔ)性底層技術(shù)
雷峰網(wǎng):怎么評價 ChatGPT 這個產(chǎn)品 ?
向文杰:ChatGPT的表現(xiàn)超出了大部分人的想象,讓人們看到了強人工智能的曙光,也帶來新的商業(yè)機會,給各個行業(yè)帶來顛覆。
雷峰網(wǎng):未來 ChatGPT 的終極產(chǎn)品形態(tài),會是什么樣的?
向文杰:說一個我們期待的形態(tài),未來的ChatGPT會從通用化變成個性化,進化成類似《鋼鐵俠》中的“賈維斯”或者是《HER》中的“薩曼莎”,成為個人的人工智能助理。
ChatGPT的底層的通用人工智能未來會成為基礎(chǔ)技術(shù),類似云計算的基礎(chǔ)設(shè)施。新的生態(tài)將會基于它們來構(gòu)建。
雷峰網(wǎng):怎么看當提問者對 ChatGPT 輸出的答案有異議時,ChatGPT 會立馬改口這種現(xiàn)象?
向文杰:這個現(xiàn)象讓人覺得ChatGPT更智能,更加智能并不是絕對正確,而是更像人的反應(yīng),會犯錯,會不懂裝懂,這些都更像是跟人在互動。
雷峰網(wǎng):ChatGPT和國內(nèi)大模型有代差,國內(nèi)大模型的機會點在哪里?
向文杰:從我們之前的經(jīng)驗來看,做第一個突破是特別難的,當然正常情況下回報也更高。技術(shù)一旦突破之后,后面的跟進會很快,目前GPT已經(jīng)實現(xiàn)了技術(shù)路徑的突破。其他跟進的大模型接下來就是投入問題和時間問題。
雷峰網(wǎng):大公司做大模型,那么中小創(chuàng)業(yè)公司的機會點在哪里?
向文杰:這個跟云計算也類似,中小創(chuàng)業(yè)公司要做的就是在通用領(lǐng)域做上層應(yīng)用和服務(wù),或者結(jié)合行業(yè)特點做垂直領(lǐng)域的模型。
AGI帶動AR產(chǎn)業(yè),AR是人與大模型交互最佳載體
雷峰網(wǎng):為什么說AR是最合適的多模態(tài)終端設(shè)備?
向文杰:首先我們現(xiàn)在跟ChatGPT交互的方式是以文本輸入和輸出為主,這個還是太麻煩了,更好用的是直接跟ChatGPT講話,通過對話的方式進行互動,AR作為穿戴式設(shè)備天然具有這方面優(yōu)勢,我們所有AR設(shè)備在語音交互上做的非常成熟。
其次ChatGPT未來是支持圖像理解,視頻理解,對外部直接的感知不需要人類來輸入,可以直接理解和感知,AR是穿戴式設(shè)備,天然有攝像頭、TOF等多種傳感器,傳感器的信息可以直接給到ChatGPT,讓它自己來理解環(huán)境并提供支持。
最重要的是,未來我們跟ChatGPT的交互方式是多模態(tài)交互,我們可以通過語音、手勢、文字、圖形以及視頻等多種方式輸入信息給ChatGPT,它反饋給我們的信息也可以是文本、語音、圖像、視頻以及3D模型等多種方式。AR天然具備環(huán)境感知,手勢、語音交互,多模態(tài)展示等,可以通過AR的能力把ChatGPT的交互做的非常簡單和豐富。
相比于傳統(tǒng)的家庭大屏、車載大屏、智能手機、平板電腦、智能手表等傳統(tǒng)設(shè)備,AR是一個更好的載體。
雷峰網(wǎng):接下來3年,杭州靈伴科技在 AGI上有什么規(guī)劃嗎?
向文杰:未來的生態(tài)體系中,AIGC的提供方會非常多,我們的重點是將AR的交互能力持續(xù)迭代,跟AIGC或者AGI方面的交互體驗持續(xù)打磨,做最好的載體。
從AI到AI+AR,迭代人機智能交互方式
雷峰網(wǎng):杭州靈伴科技從 AI 到 AI+AR轉(zhuǎn)型是基于什么考慮?
向文杰:從外部視角來看,我們是從做語音智能賽道切換到AR賽道。實際上,從公司內(nèi)部的視角來看,我們并沒有切換賽道,公司一直聚焦下一代交互產(chǎn)品,基于AI+AR的全新的交互方式。
單獨的語音AI能夠提供的交互能力有限,只有AI+AR結(jié)合起來,才能實現(xiàn)全新的多模態(tài)交互方式。
所以我們在14年成立了AI-Lab,專注于語音智能;16年成立了AR-Lab,專注于空間計算和手勢交互。在2018年推出了第一款基于全語音交互的AR智能眼鏡Glass,后續(xù)又推出了面向工業(yè)端的AR智能眼鏡X-Craft ,還有今年推出的面向消費端的Max。
聚焦于AI+AR打造新的交互產(chǎn)品,改變?nèi)藗兊纳睢W(xué)習、工作方式一直是公司的使命,這點從沒有改變過。
雷峰網(wǎng):你們早期先做 ToC 還是 ToB?是如何進行轉(zhuǎn)型的?
向文杰:很多人覺得杭州靈伴科技很厲害,同時能做好ToB和ToC兩條線,而且從外部來看是先ToB然后轉(zhuǎn)型ToC,實際上不是這樣的。
從開始切入AR方向的時候,內(nèi)部就一直有兩條產(chǎn)品線在推進,因為2018年到2021年這個期間,ToB端市場更成熟,所以更早地讓大家看到了我們ToB端的產(chǎn)品,但是公司內(nèi)部ToC的產(chǎn)品一直在保持迭代和用戶驗證。
到了2021年C端的大門開始打開,也是因為之前的持續(xù)準備,我們站在了大門的最前排,2022年在C端取得了行業(yè)最好的成績。
我們在技術(shù)和組織能力上一直在深耕。ToB和ToC的產(chǎn)品在底層算法,軟件硬件技術(shù)上有很多共同點,可以很好的復(fù)用。此外, ToB 和ToC 方向上有相應(yīng)的企業(yè)文化和配套組織機制,所以我們能同時支持好兩個團隊、做好兩個市場。
總體來看,ToB有更好的利潤,ToC有更快的成長,兩條腿走路,走的會更穩(wěn)。
發(fā)力工業(yè)元宇宙,AGI是工業(yè)元宇宙新方向
雷峰網(wǎng)(公眾號:雷峰網(wǎng)):在工業(yè)元宇宙賽道,杭州靈伴科技對比其他玩家有什么競爭優(yōu)勢?
向文杰:到今天,行業(yè)對工業(yè)元宇宙還沒有形成統(tǒng)一的認知,但是大家都有一個意識,即工業(yè)元宇宙是工業(yè)數(shù)字化發(fā)展向前推進的下一個階段。
在大數(shù)據(jù)、感知智能、通用人工智能、5G、數(shù)字孿生、IoT等各個技術(shù)都越來越普及的時候,把相關(guān)的技術(shù)融合起來,用新的終端賦能給到使用者,包含了管理者和一線的工人。技術(shù)圍繞人來展開就是工業(yè)元宇宙跟傳統(tǒng)工業(yè)數(shù)字化最大的區(qū)別。
公司一直都聚焦在交互技術(shù)上,AR設(shè)備會是工業(yè)元宇宙的入口,我們一直在持續(xù)打磨技術(shù)和產(chǎn)品,目前的AR產(chǎn)品在工業(yè)場景下有很強的競爭力,在全球范圍內(nèi)也有廣泛的影響力。
雷峰網(wǎng):要做好工業(yè)元宇宙,需要解決哪些關(guān)鍵性問題?
向文杰:工業(yè)數(shù)字化發(fā)展到今天, 5G、云計算、IOT等技術(shù)已經(jīng)成熟并且不斷普及。新的需要突破的技術(shù)包含了三個方面:
首先,通用人工智能技術(shù)在工業(yè)領(lǐng)域落地,極大的提高一線人員的工作效率, 把大數(shù)據(jù)的價值充分發(fā)揮出來;其次,AGI有效的降低數(shù)字孿生的構(gòu)建成本,更快更好的構(gòu)建虛擬世界;最后,AR設(shè)備和相關(guān)的空間計算的成熟和普及,普惠到每一個一線人員。
雷峰網(wǎng):有人說,AGI是元宇宙的新方向,你怎樣看這個觀點?
向文杰:應(yīng)該是一個必要的技術(shù),能更快的、更低成本的構(gòu)建數(shù)字孿生世界。
雷峰網(wǎng):你說元宇宙的核心是人,為什么?
向文杰:剛才講到了我們認為工業(yè)元宇宙是工業(yè)數(shù)字化向前發(fā)展的下一個階段,通過通用人工智能把數(shù)據(jù)的價值發(fā)揮出來,通過數(shù)字孿生和空間計算實現(xiàn)新的展示和交互方式,最后通過AR設(shè)備把這些能力賦能給到一線人員,實現(xiàn)“科技賦能于人”,打造更高效、更安全、更有成就感的“超級工人”。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。