丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給青暮
發(fā)送

0

不一樣的科大訊飛,他們把計(jì)算機(jī)視覺(jué)踢進(jìn)“世界杯”

本文作者: 青暮 編輯:劉曉坤 2021-11-02 15:30
導(dǎo)語(yǔ):科大訊飛的標(biāo)簽,多了“計(jì)算機(jī)視覺(jué)”。
不一樣的科大訊飛,他們把計(jì)算機(jī)視覺(jué)踢進(jìn)“世界杯”
科大訊飛的標(biāo)簽,多了“計(jì)算機(jī)視覺(jué)”。  
作者 | 青暮
編輯 | 岑峰

人工智能技術(shù)從開(kāi)始到真實(shí)產(chǎn)生應(yīng)用的突破是以時(shí)間為代價(jià)的。需要無(wú)數(shù)的科學(xué)家?guī)е首隼浒宓实臎Q心潛心鉆研,一坐就是十年、二十年。

而技術(shù)一旦突破,便有了改變世界的力量。

從1956年Dartmouth會(huì)議上第一次提出人工智能的概念到2006年深度學(xué)習(xí)概念首次問(wèn)世,神經(jīng)網(wǎng)絡(luò)從誕生到真正意義上擁有了深度,經(jīng)過(guò)了超50年的時(shí)間。

隨著大數(shù)據(jù)和算力發(fā)展的助推,深度學(xué)習(xí)爆發(fā)出巨大的威力,一輪又一輪的研究熱點(diǎn)在各項(xiàng)領(lǐng)域開(kāi)花結(jié)果,全社會(huì)都熱血澎湃地張望未來(lái)。

2010年,人類(lèi)嘗試復(fù)刻人腦聆聽(tīng)和處理人類(lèi)語(yǔ)音的方式,DNN(深度神經(jīng)網(wǎng)絡(luò))在語(yǔ)音識(shí)別方面出現(xiàn)革命性的突破。2012年,CNN(卷積神經(jīng)網(wǎng)絡(luò))在圖像識(shí)別上大獲成功。至此,人工智能多項(xiàng)技術(shù)到達(dá)真正意義上“可用”的階段。

從技術(shù)轉(zhuǎn)向產(chǎn)業(yè),2010年前后同樣是個(gè)值得書(shū)寫(xiě)的年份:移動(dòng)互聯(lián)網(wǎng)時(shí)代來(lái)到發(fā)展的沸騰臨界點(diǎn),BAT格局已然成形,而后被無(wú)數(shù)資本追捧的AI四小龍,也都在2010年后相繼成立。

而彼時(shí),殷保才和吳嘉嘉還是兩名就讀人工智能相關(guān)專(zhuān)業(yè)的學(xué)生,在代碼、公式和論文交錯(cuò)的實(shí)驗(yàn)室里,癡迷地探索著計(jì)算機(jī)視覺(jué)領(lǐng)域里一切可能的方向。 

從校招入職,到如今成為科大訊飛AI研究院計(jì)算機(jī)視覺(jué)方向(CV)的領(lǐng)跑者,吳嘉嘉正帶領(lǐng)著團(tuán)隊(duì)攻克圖文識(shí)別領(lǐng)域內(nèi)喜馬拉雅山式的挑戰(zhàn)——篇章級(jí)公式識(shí)別,并不斷將技術(shù)擴(kuò)展到更加復(fù)雜和深入的應(yīng)用場(chǎng)景;殷保才牽頭視覺(jué)領(lǐng)域的最前瞻技術(shù)探索,從視覺(jué)交互、遙感圖像到多模態(tài)感知、3D感知,用自由的眼光看更遠(yuǎn)的未來(lái)。

因名字中的“才”和“嘉”,在科大訊飛研究院里,大家都津津樂(lè)道地稱(chēng)他們?yōu)椤安拧弊印凹巍比恕:退麄円黄鸬?,是科大訊飛超百人規(guī)模的計(jì)算機(jī)視覺(jué)團(tuán)隊(duì)的研究員們,帶領(lǐng)著科大訊飛計(jì)算機(jī)視覺(jué)多項(xiàng)技術(shù)保持著國(guó)際領(lǐng)先水平。

后來(lái)被問(wèn)到,為什么在那個(gè)計(jì)算機(jī)視覺(jué)領(lǐng)域風(fēng)起云涌的時(shí)代選擇加入一家以人工智能“語(yǔ)音”技術(shù)而聞名的公司時(shí),他們都給出了相似的答案:“發(fā)揮自己的作用,讓科大訊飛的計(jì)算機(jī)視覺(jué)技術(shù)也達(dá)到國(guó)際領(lǐng)先水平?!?nbsp;

如今,從國(guó)際醫(yī)學(xué)影像領(lǐng)域權(quán)威評(píng)測(cè)LUNA上刷新世界紀(jì)錄、在計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議CVPR 2019和文檔分析與識(shí)別頂級(jí)會(huì)議ICDAR 2019上的多項(xiàng)評(píng)測(cè)任務(wù)中獲得冠軍、到刷新目前公認(rèn)自動(dòng)駕駛領(lǐng)域內(nèi)最具權(quán)威性的圖像語(yǔ)義分割評(píng)測(cè)集Cityscapes全部?jī)身?xiàng)子任務(wù)的世界紀(jì)錄,無(wú)一不在向世界宣示著,科大訊飛早已不是那個(gè)只做“語(yǔ)音”的公司了。

而這一切的背后,是這群對(duì)技術(shù)無(wú)比熱愛(ài)之人的初心堅(jiān)守。



1

AI研究院計(jì)算機(jī)視覺(jué)的“才”子“嘉”人

因?yàn)閺男【褪堑湫偷睦砜粕?,殷保才自覺(jué)對(duì)文字表達(dá)不感興趣,思維比較發(fā)散,難以集中注意力,連小說(shuō)都讀不進(jìn)去。在他的大腦里,似乎只有數(shù)學(xué)符號(hào)和圖像是可理解的,“算是一種空間型思維吧”。

就連在職期間繼續(xù)攻讀中科大的博士學(xué)位也是院長(zhǎng)費(fèi)了好大力氣勸說(shuō)后才去的,因?yàn)椤熬褪遣幌雽?xiě)論文”。

同樣,在與吳嘉嘉交流的過(guò)程中,我們也發(fā)現(xiàn)了類(lèi)似的特點(diǎn)。

只要我們說(shuō)出文本行識(shí)別、公式識(shí)別這些詞,他立馬會(huì)連珠炮彈般把整個(gè)技術(shù)鏈路里里外外介紹一遍,盡管我們當(dāng)時(shí)問(wèn)的是“這項(xiàng)技術(shù)背后有什么故事?”。多次提醒后,他依然沉浸在分享這些細(xì)節(jié)中。這些精微的技術(shù)細(xì)節(jié),仿佛才是他眼中的事件記憶。

“不想寫(xiě)論文”、“不會(huì)講故事”的他們癡迷于技術(shù)本身。在他們的思維里,故事不是被抹殺了,而是在一個(gè)抽象空間里,將所有的累積匯聚成一體。在思維成形之前,空間里只有無(wú)邏輯關(guān)聯(lián)的碎片。一旦關(guān)鍵的碎片找到后,思維成形,便是“靈感爆發(fā)”時(shí)刻。

不一樣的科大訊飛,他們把計(jì)算機(jī)視覺(jué)踢進(jìn)“世界杯”

殷保才

這種空間型思維,讓他們與計(jì)算機(jī)視覺(jué)結(jié)緣。

盡管都是空間型思維,但這對(duì)“才”子“嘉”人也有著不同的思維習(xí)慣。

殷保才偏好直覺(jué),比如在帶領(lǐng)團(tuán)隊(duì)參加LUNA比賽時(shí),創(chuàng)新性地采用了3D框架,“幾乎是一瞬間就想到了?!?/span>

吳嘉嘉則偏好邏輯,比如在解釋技術(shù)的時(shí)候,每一次都像是在發(fā)送邏輯縝密的文檔,還是當(dāng)場(chǎng)生成的。

不一樣的科大訊飛,他們把計(jì)算機(jī)視覺(jué)踢進(jìn)“世界杯”

吳嘉嘉

接下來(lái),就讓我們深入科大訊飛這對(duì)計(jì)算機(jī)視覺(jué)領(lǐng)域“才”子“嘉”人的更多親身經(jīng)歷,一探科大訊飛計(jì)算機(jī)視覺(jué)技術(shù)之究竟。 



2

探索與投入

或許是語(yǔ)音的標(biāo)簽太過(guò)耀眼,科大訊飛在計(jì)算機(jī)視覺(jué)方向上的發(fā)展并不為外界所熟知。

2008年以前,科大訊飛的技術(shù)儲(chǔ)備還是集中在與語(yǔ)音相關(guān)的技術(shù)方向上,從語(yǔ)音合成、語(yǔ)音評(píng)測(cè)到語(yǔ)音識(shí)別技術(shù),科大訊飛在全球語(yǔ)音技術(shù)領(lǐng)域內(nèi)已是全面領(lǐng)先地位。

而2008年,幾位探索計(jì)算機(jī)視覺(jué)領(lǐng)域內(nèi)圖文識(shí)別(OCR)技術(shù)方向的研究員們已默默的開(kāi)始了漫長(zhǎng)的征程。從探索、沉淀、到全面爆發(fā),一等就是十年。

“OCR一開(kāi)始在研究院是一個(gè)很小的方向。當(dāng)時(shí)很多人不理解,大家覺(jué)得OCR就是識(shí)別字符,落地的場(chǎng)景就是類(lèi)似街邊的街景字符的識(shí)別。回頭來(lái)看,隨著信息化時(shí)代的到來(lái),OCR應(yīng)用的場(chǎng)景非常廣泛,帶來(lái)的社會(huì)價(jià)值是巨大的。”吳嘉嘉說(shuō)道。

比如在教育領(lǐng)域,差不多也就在2013、2014年左右,我們非常清楚地看到了人工智能在教育里應(yīng)用的潛力,從智能閱卷、評(píng)分測(cè)評(píng)、到現(xiàn)在“因材施教”的個(gè)性化教育,OCR技術(shù)幾乎是所有教育應(yīng)用的入口。

“OCR技術(shù)一定要結(jié)合實(shí)際場(chǎng)景的需求,定義OCR技術(shù)問(wèn)題也必須來(lái)自于實(shí)際場(chǎng)景的重大剛需問(wèn)題,只做技術(shù)是不行的,這也是人工智能落地里科大訊飛探索出來(lái)的方法論?!?/span>

2014年,吳嘉嘉開(kāi)始攻關(guān)文本行識(shí)別技術(shù),在此之前,吳嘉嘉已率先嘗試用深度學(xué)習(xí)的CNN技術(shù)來(lái)做孤立字識(shí)別,識(shí)別精度相對(duì)基線版本大幅提升了30%,并在訊飛輸入法上得到了很好的落地。 

但后來(lái)他發(fā)現(xiàn),孤立字識(shí)別技術(shù)根本不適應(yīng)文本行識(shí)別問(wèn)題,文本行識(shí)別的一個(gè)常規(guī)思路是首先對(duì)字符進(jìn)行切分,然后進(jìn)行單字符識(shí)別。由于涉及手寫(xiě)字體,很多人寫(xiě)字會(huì)習(xí)慣性地連筆,這就讓切分變得困難了。

也許,圖像識(shí)別的答案要在計(jì)算機(jī)視覺(jué)之外去尋找。

不一樣的科大訊飛,他們把計(jì)算機(jī)視覺(jué)踢進(jìn)“世界杯”

吳嘉嘉工作照

技術(shù)的創(chuàng)新常源于靈感的瞬間爆發(fā)。

在投入語(yǔ)音識(shí)別技術(shù)的時(shí)候,很少有人能想到語(yǔ)音識(shí)別技術(shù)的邏輯和方式能夠被同為模式識(shí)別分支的字符識(shí)別所借鑒。

語(yǔ)音技術(shù)深厚的積累給團(tuán)隊(duì)帶來(lái)了無(wú)盡的寶藏,在文本行識(shí)別的研究中,他們找到了融合的契機(jī)——語(yǔ)音識(shí)別要將連續(xù)的波形轉(zhuǎn)化出分離的字符,而波形和手寫(xiě)字類(lèi)似,也是無(wú)法拆分的。

幾乎是完美的答案。

AI研究院的小伙伴們快速完成了語(yǔ)音識(shí)別到計(jì)算機(jī)視覺(jué)之間的算法框架遷移和借鑒,將語(yǔ)音識(shí)別中的HMM模型框架引入到文本行識(shí)別,精度大幅提升。

吳嘉嘉開(kāi)始形成自己的方法論——他山之石,可以攻玉。

技術(shù)的進(jìn)步常比想象中走得更快,而在發(fā)展之前,則是默默耕耘與長(zhǎng)期投入。

在OCR生根發(fā)芽之際,科大訊飛又開(kāi)啟了計(jì)算機(jī)視覺(jué)領(lǐng)域其他技術(shù)方向探索的征程,從人臉識(shí)別、醫(yī)學(xué)影像到輔助駕駛、虛擬形象。

科大訊飛對(duì)于新方向的探索多是從參與國(guó)際頂尖比賽開(kāi)始的,探索技術(shù)的可達(dá)性。

2016年,人工智能+醫(yī)療概念逐步興起,作為醫(yī)療影像領(lǐng)域最具代表性、最受關(guān)注的國(guó)際測(cè)評(píng)任務(wù)之一,LUNA(LUng Nodule Analysis)測(cè)評(píng)吸引了大批國(guó)內(nèi)外學(xué)術(shù)界和產(chǎn)業(yè)界的團(tuán)隊(duì)參與。但 LUNA任務(wù)的難度系數(shù)極高,核心原因在于肺結(jié)節(jié)檢測(cè)輸入的信息量巨大,而目標(biāo)非常小。

參與LUNA比賽是殷保才投身醫(yī)療后的第一個(gè)任務(wù)。

幾乎所有參賽團(tuán)隊(duì)都采用了2D或2.5D的解決方案,其中2D方案就是只處理單張影像;2.5D則是通過(guò)縱向、斜向地對(duì)整個(gè)影像序列切割出2D數(shù)據(jù),再進(jìn)行處理。

“但這些方案都不可避免導(dǎo)致原始信息的丟失,必須用3D模型。”

不一樣的科大訊飛,他們把計(jì)算機(jī)視覺(jué)踢進(jìn)“世界杯”

殷保才工作照

因?yàn)長(zhǎng)UNA所要處理的數(shù)據(jù)是3D數(shù)據(jù)。所謂3D數(shù)據(jù),即CT影像是一個(gè)數(shù)百?gòu)堄跋竦募希恳粡埻ㄟ^(guò)掃描身體部位的一個(gè)斷層得到。所謂3D框架,指的是其專(zhuān)門(mén)用于處理3D形式的數(shù)據(jù)。在競(jìng)爭(zhēng)榜單上,殷保才是少有的熟知尚不成熟的3D圖像識(shí)別技術(shù)的人。

不難看出,這種解決方案簡(jiǎn)單直接,與問(wèn)題本身天然匹配。

在這場(chǎng)比賽中,殷保才團(tuán)隊(duì)開(kāi)發(fā)的框架最終獲得了94.1%的召回率(召回率高意味著對(duì)陽(yáng)性患者的漏診率低),這一成績(jī)也刷新了當(dāng)時(shí)的榜單世界紀(jì)錄。

“才子”的這種源源不斷的直覺(jué),其實(shí)離不開(kāi)長(zhǎng)期的技術(shù)積累沉淀。



3

深度融合與厚積薄發(fā)

時(shí)間到了2017年。

吳嘉嘉團(tuán)隊(duì)此時(shí)已解決了文本行識(shí)別,正在為突破公式識(shí)別而努力。傳統(tǒng)文本行識(shí)別都是非常定式的從左到右、從上到下的識(shí)別順序,模式比較單一。而公式會(huì)有各種嵌套結(jié)構(gòu)、左右上下的雜糅。

分?jǐn)?shù)加法算式就是一個(gè)左右上下混合的簡(jiǎn)單例子,比如1/5是一個(gè)上下結(jié)構(gòu),1/5+2/5又是一個(gè)左右結(jié)構(gòu)。

不一樣的科大訊飛,他們把計(jì)算機(jī)視覺(jué)踢進(jìn)“世界杯”

嵌套結(jié)構(gòu)則包括指數(shù)、連根式、連分式等等,“這種式子沒(méi)有最復(fù)雜,只有更復(fù)雜,比如連分式可以是無(wú)窮嵌套的?!?/span>

不一樣的科大訊飛,他們把計(jì)算機(jī)視覺(jué)踢進(jìn)“世界杯”

比起文本行識(shí)別,問(wèn)題難度又上升了一階。團(tuán)隊(duì)在起初用了很多傳統(tǒng)方法去做結(jié)構(gòu)的分析。比如在兩個(gè)分?jǐn)?shù)的加法中,先將字符單獨(dú)識(shí)別出來(lái),再分析字符間的空間關(guān)系等等,“一般就是多階段模型,最后會(huì)變成非常復(fù)雜的系統(tǒng)工程,泛化性也不好。”

后來(lái)源于科大訊飛研究院在機(jī)器翻譯上的技術(shù)積累,他們發(fā)現(xiàn)公式識(shí)別任務(wù)和機(jī)器翻譯任務(wù)很像,因此可以把基于注意力機(jī)制的Encoder-Decoder模型運(yùn)用到公式識(shí)別上來(lái)。

在語(yǔ)音識(shí)別技術(shù)和自然語(yǔ)言理解技術(shù)領(lǐng)域所使用的序列建模和神經(jīng)網(wǎng)絡(luò)中的注意力機(jī)制,成為OCR技術(shù)“靈感的繆斯”。進(jìn)一步地,團(tuán)隊(duì)聯(lián)合NELSLIP基于Encoder-Decoder模型構(gòu)建了新的無(wú)切分公式識(shí)別算法。

不到一年的時(shí)間,吳嘉嘉團(tuán)隊(duì)在公式識(shí)別上已經(jīng)達(dá)到了96%的準(zhǔn)確率。

隨后,在國(guó)際頂級(jí)手寫(xiě)公式識(shí)別挑戰(zhàn)賽中,團(tuán)隊(duì)先后獲得2019年ICDAAR CROHME、2020年ICFHR OffRaSHME多個(gè)國(guó)際冠軍。

不一樣的科大訊飛,他們把計(jì)算機(jī)視覺(jué)踢進(jìn)“世界杯”

同樣地,在OCR技術(shù)應(yīng)用在教育領(lǐng)域的過(guò)程中,這對(duì)“才”子“嘉”人也發(fā)現(xiàn)圖文分析任務(wù)與其他計(jì)算機(jī)視覺(jué)任務(wù)的一致性,殷保才基于早期在計(jì)算機(jī)視覺(jué)任務(wù)上的積累,很快將多種技術(shù)方案應(yīng)用到了文檔圖像處理及版面分析任務(wù)中。

現(xiàn)在這對(duì)“才”子“嘉”人也正在聯(lián)手打造全鏈路的圖文識(shí)別技術(shù),實(shí)現(xiàn)Read Anything的目標(biāo)。

OCR的不斷突破,來(lái)自于技術(shù)間的跨領(lǐng)域創(chuàng)新式與交匯融合式的思想遷移。而人工智能助力行業(yè)的發(fā)展,則來(lái)源于厚積薄發(fā)式的積累和沉淀。

2020年疫情爆發(fā)初期,殷保才接到了緊急通知,要針對(duì)新冠疫情開(kāi)發(fā)醫(yī)療輔助系統(tǒng),幫助醫(yī)生診斷肺炎癥狀。

疫情期間影像科醫(yī)生的壓力是巨大的。每診斷一個(gè)病例,影像科醫(yī)生需要對(duì)CT的數(shù)百?gòu)埱衅饘臃治?,需要大約為5至15分鐘時(shí)間。而針對(duì)新冠確診患者,醫(yī)生還需要回顧患者歷史影像,閱片量至少再翻一倍。

三天后,第一個(gè)版本的系統(tǒng)正式上線。之后一個(gè)月,殷保才團(tuán)隊(duì)每天都會(huì)將系統(tǒng)更新一個(gè)版本。通過(guò)系統(tǒng)可在3秒內(nèi)完成一例病例輔助診斷,極大提高了醫(yī)生工作效率,也有效降低漏診誤診。

與時(shí)間賽跑,與病毒較量,殷保才團(tuán)隊(duì)也充分發(fā)揮技術(shù)優(yōu)勢(shì),為疫情防控貢獻(xiàn)科技力量。

殷保才做事雷厲風(fēng)行,擅長(zhǎng)突發(fā)式攻關(guān)。

但突發(fā)式攻關(guān)的背后,殷保才直覺(jué)的來(lái)源,是多年的經(jīng)驗(yàn)與知識(shí)的積累,是那段少有人知的刻苦經(jīng)歷。

曾為落地胸科診斷技術(shù),殷保才多次登門(mén)拜訪向?qū)I(yè)醫(yī)生尋求數(shù)據(jù)標(biāo)注的建議。“結(jié)合專(zhuān)業(yè)知識(shí)在AI醫(yī)療影像中是非常關(guān)鍵的部分,耗費(fèi)成本也很高。同時(shí),3D數(shù)據(jù)標(biāo)注更為復(fù)雜,不同醫(yī)生的標(biāo)注也有方差。”奈何醫(yī)生太忙,每次只落下零星幾句話,然后甩給他一本上千頁(yè)的胸科診斷指南。

殷保才只能自學(xué)醫(yī)療知識(shí),開(kāi)始探索這條少有人走的路,“不僅數(shù)據(jù)少,現(xiàn)有的代碼也少?!比缃瘢缫殉蔀榱巳斯ぶ悄茴I(lǐng)域里的半個(gè)醫(yī)學(xué)專(zhuān)家。

但有厚積,才有薄發(fā)。

無(wú)論是交匯融合式的思想遷移,還是厚積薄發(fā)式的靈感閃現(xiàn),殷保才和吳嘉嘉都在一步一個(gè)腳印,在正確的方向長(zhǎng)期投入和無(wú)悔堅(jiān)持。



4

AI研究院:頂天是為了立地

這份熱愛(ài),既源于他們自身,也在科大訊飛AI研究院的支撐下,源源不絕。

科大訊飛AI研究院分為計(jì)算機(jī)視覺(jué)、認(rèn)知、語(yǔ)音三個(gè)大方向,"但在這里,你可以隨意和任何一個(gè)方向的人聊技術(shù),每個(gè)人都很樂(lè)于分享,只要你夠主動(dòng)。"

“我們內(nèi)部有很多基于深度學(xué)習(xí)為主的研究方向,這些不同的領(lǐng)域之間可借鑒性很強(qiáng),不同方向之間互相借鑒然后做一些跨領(lǐng)域、融合式的創(chuàng)新是我們AI研究院所擅長(zhǎng)的。”殷保才說(shuō)道?!氨热缥覀兪紫茖W(xué)家魏思在多年前就發(fā)起了'王牌飛行員'計(jì)劃,加強(qiáng)不同團(tuán)隊(duì)的溝通交流,促進(jìn)內(nèi)部的信息交流和技術(shù)遷移應(yīng)用,當(dāng)然也為了培養(yǎng)一批批的'科學(xué)家'。”

研究院簡(jiǎn)單真誠(chéng)的氛圍"就和在學(xué)校里差不多,大家都非常純粹。"

這份純粹讓他們自由而一往無(wú)前,技術(shù)水平更具前瞻性,使得公司不受外界干擾而保持戰(zhàn)略的定力。

科大訊飛AI研究院首席科學(xué)家魏思曾經(jīng)說(shuō)過(guò),"在整個(gè)工業(yè)界里去做研究這一塊的工作,科大訊飛AI研究院不輸于世界上任何一家研究機(jī)構(gòu)。"

他們也并不害怕承認(rèn)——研究院并不對(duì)發(fā)論文有狂熱的偏愛(ài)。

殷保才說(shuō)道,"在我們看來(lái),技術(shù)核心在于能不能為社會(huì)真正創(chuàng)造價(jià)值,能否立足場(chǎng)景解決剛需問(wèn)題。"

這與李開(kāi)復(fù)在《AI未來(lái)》一書(shū)中的觀察不謀而合:

西方國(guó)家點(diǎn)燃了深度學(xué)習(xí)的火炬,但最大的受益者將會(huì)是中國(guó),這種全球性的變化是由兩方面的轉(zhuǎn)變引起的:從發(fā)明的年代轉(zhuǎn)變?yōu)閷?shí)干的年代;從專(zhuān)家的年代轉(zhuǎn)變?yōu)閿?shù)據(jù)的年代。

此外,一位ACM高級(jí)科學(xué)家曾經(jīng)告訴我們,現(xiàn)在AI學(xué)界研究的風(fēng)氣大變,灌水現(xiàn)象也特別嚴(yán)重,"將從學(xué)界拿到的論文用于技術(shù)落地時(shí),對(duì)其結(jié)論首先都要打一個(gè)問(wèn)號(hào)。"

業(yè)界做AI學(xué)術(shù)被質(zhì)疑理論不夠扎實(shí),學(xué)界在缺少資源的情況下,亦難以研究大規(guī)模的問(wèn)題。或許兩者匯集之后我們才能提出更好的基礎(chǔ)研究問(wèn)題。

"我們也發(fā)現(xiàn)了一個(gè)現(xiàn)象:在企業(yè)研究院發(fā)論文對(duì)于學(xué)生而言很有吸引力,能為他們的簡(jiǎn)歷增光。但這個(gè)現(xiàn)象持續(xù)下去,是否對(duì)整個(gè)行業(yè)有促進(jìn)作用,值得探討。"殷保才補(bǔ)充道。

企業(yè)研究不僅需要在技術(shù)水平上"頂天",又要在技術(shù)價(jià)值上"立地"。這其實(shí)也正是科大訊飛AI研究院一直秉承的價(jià)值觀——頂天立地。

在資源投入上,科大訊飛以市場(chǎng)導(dǎo)向分配"彈藥",遵循"721研發(fā)投入模式"。

"我們每年拿出20%以上的營(yíng)收投入到研發(fā)中,其中70%的資源投入當(dāng)前的主導(dǎo)產(chǎn)品,20%投入戰(zhàn)略新產(chǎn)品,10%投入探索型的、不追求一定要有回報(bào)的方向,它可以很自由地探索未來(lái)?!倍蟊2胖饕驮谪?fù)責(zé)2和1的部分。

指尖交互、手勢(shì)交互、多模態(tài)識(shí)別、遙感方向、智慧畜牧等都是他將投入的方向。

"視覺(jué)前瞻的每一個(gè)嘗試,基于我們的業(yè)務(wù)需求、未來(lái)趨勢(shì)判斷以及擴(kuò)展研究院的能力建設(shè),但最終都是為了能夠拓寬整個(gè)視覺(jué)領(lǐng)域的應(yīng)用邊界。"殷保才補(bǔ)充道。

吳嘉嘉則將繼續(xù)深耕OCR,打通OCR技術(shù)鏈路。在整個(gè)職業(yè)生涯中,吳嘉嘉前三、四年聚焦于鉆研技術(shù),帶團(tuán)隊(duì)之后,開(kāi)始思考整個(gè)技術(shù)鏈路的問(wèn)題。

從孤立字識(shí)別到文本行識(shí)別,是從1到10的階段跨越;而從文本行識(shí)別到公式識(shí)別,則是從10到100的飛躍。

如今,團(tuán)隊(duì)正在攻關(guān)一個(gè)“300”難度的任務(wù)——篇章級(jí)公式識(shí)別,"當(dāng)然,說(shuō)不定是1000。"

從孤立字識(shí)別、文本行識(shí)別、公式識(shí)別到篇章級(jí)識(shí)別,是一場(chǎng)從點(diǎn)到線到面再到網(wǎng)絡(luò)的升維進(jìn)化,科大訊飛亦在OCR領(lǐng)域建立起了較高的技術(shù)壁壘。在實(shí)際應(yīng)用中,以教育為例,學(xué)生作業(yè)試卷文檔存在版面結(jié)構(gòu)復(fù)雜、書(shū)寫(xiě)風(fēng)格差異顯著等難點(diǎn)問(wèn)題也變得可解。

如今作為OCR條線的負(fù)責(zé)人,面對(duì)團(tuán)隊(duì)日漸增長(zhǎng)的團(tuán)隊(duì)規(guī)模,他也有了新的夢(mèng)想,“保持核心技術(shù)的領(lǐng)先水平,屹立于世界的前沿。同時(shí)讓人工智能技術(shù)應(yīng)用到更多的領(lǐng)域內(nèi),讓科技所帶來(lái)的改變惠及大眾?!?/span>

不一樣的科大訊飛,他們把計(jì)算機(jī)視覺(jué)踢進(jìn)“世界杯”



5

科大訊飛——自成神經(jīng)網(wǎng)絡(luò)

這對(duì)“才”子“嘉”人在科大訊飛的成長(zhǎng)故事,也是科大訊飛不斷擴(kuò)展的縮影。

專(zhuān)注AI多年的科大訊飛,自身已成一個(gè)神經(jīng)網(wǎng)絡(luò)——很寬、很深的生成式神經(jīng)網(wǎng)絡(luò)。

一個(gè)典型的生成式神經(jīng)網(wǎng)絡(luò)包括了輸入層、編碼層、輸出層。對(duì)于一個(gè)AI企業(yè)而言,輸入是AI三要素:算力、數(shù)據(jù)、算法,輸出是技術(shù)和產(chǎn)品,編碼層則是企業(yè)的組織方式和技術(shù)方法論,以及企業(yè)的人才。

各個(gè)節(jié)點(diǎn)并非孤立,緊密鏈接,由此在“技術(shù)頂天”與“應(yīng)用落地”這一天地兩端,用人工智能建設(shè)美好世界。

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

不一樣的科大訊飛,他們把計(jì)算機(jī)視覺(jué)踢進(jìn)“世界杯”

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)