0
本文作者: 嘉嘉 | 2022-04-22 09:46 |
2021年是大規(guī)模預(yù)訓(xùn)練模型的爆發(fā)之年,掀起了人工智能又一波熱潮,并迅速成為AI領(lǐng)域的技術(shù)新高地,助推人工智能從1.0的感知智能向2.0的認(rèn)知智能轉(zhuǎn)變。
自從2012年深度學(xué)習(xí)的應(yīng)用元年以來(lái),人臉識(shí)別、語(yǔ)音識(shí)別等技術(shù)通過(guò)機(jī)器學(xué)習(xí)實(shí)現(xiàn)了大量應(yīng)用場(chǎng)景突破,不僅提升了社會(huì)工作效率,同時(shí)改變了人們的生活出行模式,建立了人類對(duì)人工智能技術(shù)的基礎(chǔ)認(rèn)知。但是經(jīng)過(guò)多年的應(yīng)用實(shí)踐,傳統(tǒng)人工智能基于特定場(chǎng)景、特定內(nèi)容、特定需求的適配模式也暴露出很多短板,尤其在泛場(chǎng)景應(yīng)用、小樣本及復(fù)雜場(chǎng)景上,只能達(dá)到“有多少人工,就有多少智能”的基礎(chǔ)感知,識(shí)別準(zhǔn)確度差,泛化能力低。要實(shí)現(xiàn)人工智能的真正落地,必須讓機(jī)器具備通識(shí)知識(shí)的自學(xué)習(xí)能力,以及對(duì)業(yè)務(wù)的邏輯判斷能力,建立機(jī)器綜合認(rèn)知體系。工欲善其事必先利其器,預(yù)訓(xùn)練技術(shù)讓深度神經(jīng)網(wǎng)絡(luò)模型可以對(duì)大規(guī)模無(wú)標(biāo)注數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí),使超大規(guī)模模型的建立成為可能。自從2018年Google推出BERT以來(lái),Open AI、Google、Facebook、Microsoft、英偉達(dá)、智源研究院、阿里達(dá)摩院、華為、百度等研發(fā)機(jī)構(gòu)和企業(yè)紛紛進(jìn)行大規(guī)模預(yù)訓(xùn)練模型布局,掀起了一輪拼參數(shù)、拼算力的AI軍備競(jìng)賽。雖然這輪競(jìng)賽參數(shù)規(guī)模呈指數(shù)級(jí)增長(zhǎng),但技術(shù)應(yīng)用各有側(cè)重。于是2021年8月,基于各類大模型的特性和未來(lái)發(fā)展前景,斯坦福大學(xué)的Percy Liang、李飛飛等100多位學(xué)者聯(lián)名發(fā)表了一份 200 多頁(yè)的重磅研究綜述《On the Opportunities and Risk of Foundation Models》,將大規(guī)模預(yù)訓(xùn)練模型統(tǒng)一命名為基礎(chǔ)模型(Foundation Models),并從基礎(chǔ)模型的能力、應(yīng)用領(lǐng)域、技術(shù)層面和社會(huì)影響等四個(gè)方面闡述了基礎(chǔ)模型面臨的機(jī)遇和挑戰(zhàn),奠定了大規(guī)模預(yù)訓(xùn)練模型的理論基礎(chǔ),也正式標(biāo)志著人工智能2.0序幕的正式拉開(kāi)。在新一輪大規(guī)模預(yù)訓(xùn)練模型的商業(yè)化熱潮中,近期,由深投控領(lǐng)投,融創(chuàng)投資等共同參與的聯(lián)匯科技D輪融資,使這家從事大規(guī)模預(yù)訓(xùn)練模型研發(fā)的新型AI公司浮出水面。不同于大量的AI新創(chuàng)企業(yè),聯(lián)匯科技擁有十多年的行業(yè)積累,以及對(duì)音視圖文處理分析技術(shù)的豐富應(yīng)用經(jīng)驗(yàn),正如一只等風(fēng)來(lái)的候鳥,積極打造針對(duì)視覺(jué)語(yǔ)言的多模態(tài)預(yù)訓(xùn)練大模型,努力改變視覺(jué)分析和多模態(tài)分析領(lǐng)域的人工智能技術(shù)實(shí)現(xiàn)方式。
聯(lián)匯科技的首席科學(xué)家趙天成博士是一位世界級(jí)的AI青年科學(xué)家,畢業(yè)于全球計(jì)算機(jī)領(lǐng)域頂級(jí)院?!突仿〈髮W(xué),獲得計(jì)算機(jī)博士學(xué)位,在多模態(tài)機(jī)器學(xué)習(xí)和自然語(yǔ)言處理領(lǐng)域?qū)賴?guó)際青年創(chuàng)新型人才,是端到端人機(jī)交互理論的開(kāi)創(chuàng)者,受到Google、微軟、亞馬遜等同行頂級(jí)專家的高度評(píng)價(jià),曾多次擔(dān)任國(guó)際頂尖會(huì)議和期刊的審稿人和區(qū)域主席,在國(guó)際頂級(jí)會(huì)議和期刊上發(fā)表論文30余篇,多次獲得最佳論文獎(jiǎng),并且2018年獲得微軟研究院Best & Brightest PhD榮譽(yù)。
趙天成博士一直以來(lái)專注于提高機(jī)器認(rèn)知能力的研究,讓機(jī)器可以理解更多模態(tài)的數(shù)據(jù)類型,能像人腦一樣用更少的數(shù)據(jù)樣本自主學(xué)習(xí)和理解更加復(fù)雜的知識(shí)?;谠诳▋?nèi)基梅隆大學(xué)的長(zhǎng)期研究,趙天成博士帶領(lǐng)團(tuán)隊(duì)創(chuàng)建了擁有自主知識(shí)產(chǎn)權(quán)的視覺(jué)語(yǔ)言大規(guī)模預(yù)訓(xùn)練模型OmModel。不同于國(guó)內(nèi)大部分研發(fā)機(jī)構(gòu)和企業(yè)聚焦在較為成熟的大規(guī)模語(yǔ)言模型,聯(lián)匯科技聚焦在更為前沿的視覺(jué)語(yǔ)言大模型賽道。所謂視覺(jué)語(yǔ)言模型,也就是通過(guò)一個(gè)預(yù)訓(xùn)練模型同時(shí)理解自然語(yǔ)言和視覺(jué)信息,并且可以構(gòu)建他們之間的關(guān)系。因此相較于只能解決NLP問(wèn)題的語(yǔ)言模型,視覺(jué)語(yǔ)言模型的應(yīng)用面更廣、可以解決更加復(fù)雜的實(shí)際問(wèn)題,通過(guò)聯(lián)系視覺(jué)和語(yǔ)言這兩大重要的模態(tài)信息,讓人工智能真正擁有認(rèn)知能力。目前聯(lián)匯科技的OmModel已經(jīng)完成了基于超過(guò)數(shù)十億字符、近十億圖片和視頻數(shù)據(jù)的大規(guī)模預(yù)訓(xùn)練,同時(shí)在包括目標(biāo)檢測(cè)、行為識(shí)別、跨模態(tài)檢索等多項(xiàng)重要任務(wù)上展現(xiàn)出超強(qiáng)的零樣本泛化能力和小樣本學(xué)習(xí)能力。
此外,回歸商業(yè)本質(zhì),強(qiáng)調(diào)核心技術(shù)的商業(yè)化落地也是聯(lián)匯科技的一大特色?!拔覀兊哪繕?biāo)是打造行業(yè)大模型系統(tǒng),讓預(yù)訓(xùn)練大模型真正實(shí)現(xiàn)產(chǎn)業(yè)化落地,變成對(duì)客戶有價(jià)值的產(chǎn)品,而不是單純地追求模型的參數(shù)量?!壁w天成博士表示。
目前,聯(lián)匯科技正在基于OmModel從底層構(gòu)建全新的基于預(yù)訓(xùn)練大模型的人工智能操作系統(tǒng)(Om OS)和模型算法工廠(Om Studio),提供一站式AI視覺(jué)應(yīng)用服務(wù)。Om Studio讓用戶可以在沒(méi)有訓(xùn)練數(shù)據(jù)或者極少訓(xùn)練數(shù)據(jù)的前提下,利用大模型的超強(qiáng)通識(shí)能力,在幾個(gè)小時(shí)內(nèi)完成AI視覺(jué)算法適配,實(shí)現(xiàn)AI業(yè)務(wù)應(yīng)用零門檻上手,服務(wù)千行百業(yè)的視覺(jué)場(chǎng)景應(yīng)用。針對(duì)少量特定需求任務(wù),OmModel只需較少樣本的標(biāo)注數(shù)據(jù)進(jìn)行微調(diào)即可實(shí)現(xiàn)應(yīng)用適配。改變了傳統(tǒng)人工智能需要大量高級(jí)工程師和海量標(biāo)注數(shù)據(jù)的困境,大幅度降低了人工智能應(yīng)用構(gòu)建的門檻,同時(shí)提高了響應(yīng)效率,實(shí)現(xiàn)人工智能2.0向大量長(zhǎng)尾泛需求的擴(kuò)展。而Om OS是大模型的運(yùn)行和操作系統(tǒng),讓用戶可結(jié)合語(yǔ)義進(jìn)行基礎(chǔ)的邏輯判斷,實(shí)現(xiàn)業(yè)務(wù)知識(shí)和AI模型的有效結(jié)合,真正解決需求方的痛點(diǎn)。比如針對(duì)車站等復(fù)雜場(chǎng)景戴口罩場(chǎng)景的識(shí)別判斷,不僅可以判斷是否戴口罩,還可以判斷出口罩佩戴是否規(guī)范、排除兒童未戴口罩、排除在飲用食物未戴口罩等行為,而這一切不需要依賴樣本數(shù)據(jù)訓(xùn)練,只需要通過(guò)簡(jiǎn)單語(yǔ)義定義即可。通過(guò)這一系列的創(chuàng)新技術(shù)應(yīng)用,使得OmModel視覺(jué)語(yǔ)言大規(guī)模預(yù)訓(xùn)練模型在自主學(xué)習(xí)能力、響應(yīng)能力、認(rèn)知識(shí)別能力上得到了質(zhì)的提升。目前聯(lián)匯科技的Om OS和Om Studio兩大產(chǎn)品已經(jīng)實(shí)現(xiàn)基于多模態(tài)數(shù)據(jù)文件的數(shù)字資產(chǎn)管理、知識(shí)圖譜分析等應(yīng)用,以及基于監(jiān)控?cái)z像機(jī)信號(hào)的美麗鄉(xiāng)村、智慧城管、數(shù)字防疫、智慧門店、明廚亮灶數(shù)十個(gè)場(chǎng)景的應(yīng)用落地。并率先在國(guó)內(nèi)開(kāi)啟人工智能從感知智能向認(rèn)知智能轉(zhuǎn)變的2.0迭代升級(jí),打破了傳統(tǒng)人工智能對(duì)樣本數(shù)據(jù)的依賴,實(shí)現(xiàn)僅用10%的標(biāo)注數(shù)據(jù)快速解決傳統(tǒng)算法廠商無(wú)法應(yīng)對(duì)的80%的長(zhǎng)尾應(yīng)用場(chǎng)景,極大地降低了人工智能的落地應(yīng)用門檻,有利于快速、低成本地普及視覺(jué)認(rèn)知技術(shù)在各行業(yè)的應(yīng)用,為百行千業(yè)的數(shù)字化改革提供技術(shù)賦能。聯(lián)匯科技通過(guò)大規(guī)模預(yù)訓(xùn)練模型在人工智能業(yè)務(wù)應(yīng)用上的實(shí)踐,證明人工智能從感知智能向認(rèn)知智能轉(zhuǎn)變的可能,大規(guī)模預(yù)訓(xùn)練模型勢(shì)必帶來(lái)人工智能技術(shù)的二次碰撞。碰撞即是融合,歷史的車輪總是在碰撞中前進(jìn),人工智能技術(shù)前進(jìn)的車輪亦是如此,人類暢想未來(lái)的步伐未曾停步。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。