丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給汪思穎
發(fā)送

0

ICPR 2018 上,阿里巴巴舉辦首屆深度學(xué)習(xí)文本分析與識(shí)別研討會(huì)

本文作者: 汪思穎 2018-08-27 16:32
導(dǎo)語(yǔ):目前深度學(xué)習(xí)在 OCR 領(lǐng)域的局限性仍比較大,不規(guī)則排列的文字檢測(cè)與識(shí)別仍非常棘手,深度學(xué)習(xí)模型的泛化能力有限,非拉丁文識(shí)別依舊是難點(diǎn)。這些都值得研究和思考。
活動(dòng)
企業(yè):阿里巴巴
操作:舉辦研討會(huì)
事項(xiàng):

雷鋒網(wǎng) AI 科技評(píng)論按,日前,第 24 屆國(guó)際模式識(shí)別大會(huì) ICPR 2018 在北京國(guó)家會(huì)議中心召開,這也是其創(chuàng)辦以來第一次在中國(guó)內(nèi)地召開。講者包括南京大學(xué)周志華教授,香港科技大學(xué)權(quán)龍教授,福特汽車公司高級(jí)技術(shù)主管 K. Venkatesh Prasad,牛津大學(xué) Alison Noble 教授。除了陣容強(qiáng)大的講者,這次會(huì)議還包括多個(gè)研討會(huì)、講習(xí)班等,其中不乏中國(guó)企業(yè)和高校的身影。

ICPR 2018 上,阿里巴巴舉辦首屆深度學(xué)習(xí)文本分析與識(shí)別研討會(huì)

會(huì)議首日,阿里巴巴「圖像和美」團(tuán)隊(duì)聯(lián)手華中科技大學(xué)、中科院自動(dòng)化所共同舉辦首屆 Deep Learning for Document Analysis and Recognition 研討會(huì)。此外,阿里巴巴「圖像和美」團(tuán)隊(duì)聯(lián)合華南理工大學(xué)共同舉辦的 ICPR MTWI 2018 挑戰(zhàn)賽也在當(dāng)天進(jìn)行了報(bào)告和頒獎(jiǎng),這一挑戰(zhàn)賽基于阿里標(biāo)注并公開的 MTWI 數(shù)據(jù)集,這是現(xiàn)有難度最大、內(nèi)容最豐富的網(wǎng)絡(luò)圖片 OCR 數(shù)據(jù)集,也是阿里首個(gè)公開的 OCR 數(shù)據(jù)集。阿里巴巴「圖像和美」團(tuán)隊(duì)由于這一系列活動(dòng),在雷鋒網(wǎng)旗下學(xué)術(shù)頻道 AI 科技評(píng)論數(shù)據(jù)庫(kù)產(chǎn)品「AI 影響因子」上有相應(yīng)加分。

Deep Learning for Document Analysis and Recognition 研討會(huì)主席王永攀目前是阿里巴巴「圖像和美」團(tuán)隊(duì)讀光 OCR 負(fù)責(zé)人,她對(duì)雷鋒網(wǎng) AI 科技評(píng)論表示,舉辦此次研討會(huì)的原因有二,「一方面,希望向大家展示阿里在 OCR 上的一系列工作;另一方面,想把阿里關(guān)注 OCR 這件事情告訴大家,吸引到更多的學(xué)者教授來關(guān)注阿里所關(guān)注的問題。」

她進(jìn)一步說道,阿里 OCR 團(tuán)隊(duì)對(duì)外發(fā)聲并不多,但實(shí)際上,在阿里集團(tuán)內(nèi)部,讀光 OCR 的應(yīng)用已經(jīng)非常廣泛,早在 2016 年,他們就已經(jīng)實(shí)現(xiàn)了大規(guī)模的集團(tuán)內(nèi)系統(tǒng)。目前,讀光 OCR 在辦公自動(dòng)化、文檔電子化、數(shù)據(jù)智能等場(chǎng)景均有應(yīng)用。

華中科技大學(xué)白翔教授也是此次研討會(huì)主席,負(fù)責(zé)部分講者的邀請(qǐng)以及程序上的安排。他的主要研究領(lǐng)域?yàn)橛?jì)算機(jī)視覺與模式識(shí)別、深度學(xué)習(xí),已在相關(guān)領(lǐng)域一流國(guó)際期刊和會(huì)議如 PAMI、IJCV、CVPR、ICCV、ECCV、NIPS、ICML、ICDAR 上發(fā)表論文 30 余篇。

對(duì)于與阿里攜手舉辦這次研討會(huì)的契機(jī),他表示,此前他曾與阿里「圖象和美」團(tuán)隊(duì)進(jìn)行過一次學(xué)術(shù)交流,阿里在 OCR 產(chǎn)品落地方面所取得的成績(jī)令他印象深刻?!竿跤琅屎桶⒗锇桶偷男』锇槌晒⑽抑暗墓ぷ?CRNN 落地于中文識(shí)別,在網(wǎng)絡(luò)文本識(shí)別上取得了 90% 以上的驚人識(shí)別精度。這在 CRNN 原著論文里也不曾做到?!?/p>

但他們雙方都感到 OCR 的實(shí)際需求和學(xué)術(shù)研究之間存在著兩大方面鴻溝:1)現(xiàn)有的公開 OCR 測(cè)試集并不能完全反映實(shí)際應(yīng)用里面臨的一些瓶頸問題;2)工業(yè)界一直有在關(guān)注學(xué)界關(guān)于 OCR 的研究進(jìn)展,但面對(duì)面交流的機(jī)會(huì)太少,影響了 OCR 產(chǎn)業(yè)化的進(jìn)程。

針對(duì)以上問題,他們經(jīng)過多次反復(fù)協(xié)商,共同完成了 ICPR 2018 MTWI 挑戰(zhàn)賽和 OCR 學(xué)術(shù)研討會(huì)?!阜浅8吲d阿里巴巴起到了表率作用,免費(fèi)開放一大批數(shù)據(jù)給學(xué)界,并參與組織了一次成功的學(xué)術(shù)研討會(huì)。希望這次成功的嘗試是未來工業(yè)界與學(xué)術(shù)界更加緊密合作的一個(gè)良好開端。」白翔如是表示。

這次研討會(huì)的報(bào)告嘉賓有 IAPR 主席 Simone Marinai 副教授、華南理工大學(xué)金連文教授、海得拉巴信息技術(shù)國(guó)際研究所(IIIT Hyderabad)C.V.Jawahar 教授、碼隆首席科學(xué)家黃偉林、阿里高級(jí)算法專家趙華廈、阿里讀光 OCR 負(fù)責(zé)人王永攀,討論內(nèi)容涉及文檔圖像分析、端到端識(shí)別、信息提取等多個(gè)話題。

王永攀表示,希望能和大家一起合作,讓這次研討會(huì)發(fā)揮實(shí)際意義,讓更多 OCR 產(chǎn)品與技術(shù)走出去。

研討會(huì)特別設(shè)立圓桌討論環(huán)節(jié),議題是深度學(xué)習(xí)在 OCR 和 DAR 上的未來發(fā)展趨勢(shì)。對(duì)于這些問題,王永攀、白翔也與雷鋒網(wǎng) AI 科技評(píng)論進(jìn)行了更進(jìn)一步的探討。以下為問答環(huán)節(jié):

問:文字識(shí)別任務(wù)場(chǎng)景眾多,例如手寫、場(chǎng)景、文檔,追求端到端統(tǒng)一的解決方案是否可行?是否有必要?

王永攀:在特定場(chǎng)景,端到端的方案是可行的,但可能不是最優(yōu)解法。端到端的方法看起來比較優(yōu)雅,但是會(huì)導(dǎo)致更大的不確定性,比如可能會(huì)導(dǎo)致問題定義不清,網(wǎng)絡(luò)參數(shù)和訓(xùn)練數(shù)據(jù)都會(huì)劇增。我們也在嘗試一些端到端的方案,端到端的本質(zhì)是打破算法之間的壁壘。以文字識(shí)別為例,端到端表面上看似乎是去掉了檢測(cè)的流程,直接由整圖得到文字內(nèi)容,實(shí)際上這是一個(gè)試圖打破檢測(cè)和識(shí)別壁壘甚至矛盾的過程。在研究者意識(shí)到檢測(cè)和識(shí)別之間有不可調(diào)和的矛盾時(shí),當(dāng)他們?cè)噲D解決這個(gè)矛盾的過程中,會(huì)誕生出很多新的思想和方法。我們覺得在嘗試打破檢測(cè)識(shí)別壁壘這條道路上走下去是沒問題的,至于最終是不是端到端反而不那么重要。

深度學(xué)習(xí)目前取得的突破也得益于數(shù)據(jù)集的發(fā)展,基于此,圓桌討論上也提出如下問題:為了促進(jìn)學(xué)術(shù)發(fā)展,學(xué)術(shù)界需要哪些數(shù)據(jù)集,需要什么樣的數(shù)據(jù)集?怎樣才能激勵(lì)數(shù)據(jù)擁有方提供數(shù)據(jù)?

王永攀:首先,我們認(rèn)為數(shù)據(jù)集不僅是數(shù)據(jù),構(gòu)建數(shù)據(jù)集是一個(gè)系統(tǒng)工程,「圖像和美」團(tuán)隊(duì)在《視覺求索》上發(fā)表的文章「如何做一個(gè)實(shí)用的圖像數(shù)據(jù)集」對(duì)數(shù)據(jù)集的建立有系統(tǒng)的描述:

數(shù)據(jù)集奠定的技術(shù)發(fā)展,建立系統(tǒng)的數(shù)據(jù)集是學(xué)術(shù)界和工業(yè)界共同的話題。

構(gòu)建一個(gè)數(shù)據(jù)集,首先要考慮數(shù)據(jù)集的知識(shí)價(jià)值和應(yīng)用價(jià)值,知識(shí)價(jià)值有的時(shí)候可以理解為學(xué)術(shù)價(jià)值,指的是該數(shù)據(jù)集是否映射特定的知識(shí)點(diǎn),這些知識(shí)點(diǎn)是否值得去研究。應(yīng)用價(jià)值是指數(shù)據(jù)集能否解決實(shí)際需求。其次,從知識(shí)價(jià)值和應(yīng)用價(jià)值角度出發(fā),才能做好數(shù)據(jù)收集、標(biāo)注、標(biāo)準(zhǔn)制定等后續(xù)工作。我們所構(gòu)建的 MTWI 數(shù)據(jù)集,來源于真實(shí)的工業(yè)界,側(cè)重收集那些具有普適性難點(diǎn)的數(shù)據(jù)。所以,在我們看來,無論是學(xué)術(shù)界的數(shù)據(jù)集還是工業(yè)界的數(shù)據(jù)集都要考慮到對(duì)方的需求,不能只看研究知識(shí)點(diǎn),也不能只解決工業(yè)應(yīng)用問題。

未來工業(yè)界和學(xué)術(shù)界要有更多的交流,學(xué)術(shù)界了解技術(shù)落地時(shí)遇到的新問題,工業(yè)界去學(xué)習(xí)如何把問題抽象成通用的知識(shí)難點(diǎn)。最后說一點(diǎn),我們應(yīng)該鼓勵(lì)更多的數(shù)據(jù)持有者貢獻(xiàn)非機(jī)密數(shù)據(jù),也希望數(shù)據(jù)使用者能讓數(shù)據(jù)提供者有知情權(quán),尊重知識(shí)產(chǎn)權(quán)。

OCR 涉及文字識(shí)別與文本理解,與計(jì)算機(jī)視覺(CV)以及自然語(yǔ)言處理(NLP)緊密相關(guān),那么 CV 和 NLP 該如何結(jié)合,兩個(gè)領(lǐng)域應(yīng)該如何建立長(zhǎng)效合作?

王永攀:視覺是捕捉信息最常用最直接的方式,而語(yǔ)言是人類對(duì)信息進(jìn)行抽象思維的媒介,對(duì)于大量的真實(shí)的人工智能應(yīng)用來說,兩者是密不可分的前后步驟。文字識(shí)別和文檔分析就是一個(gè)典型的案例。然而 CV 和 NLP 現(xiàn)在是完全獨(dú)立的研究領(lǐng)域,各自都有大量問題沒有解決,沒有強(qiáng)烈的意愿進(jìn)行合作,因此如何建立長(zhǎng)效合作機(jī)制是一個(gè)很困難的問題,也是我們一直在探索的方向。

要想解決這個(gè)問題,我們認(rèn)為首先需要有一批勇敢的跨界研究者,他們熟悉兩個(gè)領(lǐng)域的問題和方法,能夠定義清楚背后的理論問題,進(jìn)而還可以清晰地劃分出 CV 和 NLP 適用的邊界。這樣才能降低門檻,吸引到更多的參與者,包括那些專精 CV 或 NLP 領(lǐng)域的研究者。

其次還需要逐漸完善跨界研究的基礎(chǔ)設(shè)施,例如公開的有挑戰(zhàn)性的數(shù)據(jù)集和競(jìng)賽,長(zhǎng)期的學(xué)術(shù)討論會(huì)議,以及從研究到產(chǎn)業(yè)化的落地渠道等。只有這樣才能讓合作變得長(zhǎng)久。

目前阿里在實(shí)踐中對(duì)傳統(tǒng)算法和深度學(xué)習(xí)算法的使用情況如何?

王永攀:現(xiàn)在主流的偏應(yīng)用的方法基本上都是深度學(xué)習(xí),傳統(tǒng)方法更多的是做研究,或者做 baseline。當(dāng)涉及到一個(gè)新問題時(shí),我們可能會(huì)先用傳統(tǒng)方式去嘗試,看傳統(tǒng)方法是否能解決這個(gè)問題,然后再做 baseline。這時(shí)候,如果傳統(tǒng)方法能做到 70%,我們會(huì)用深度學(xué)習(xí)的方法嘗試能不能把結(jié)果提升到更高,如 80%、90% 以上。

此外,傳統(tǒng)方法對(duì)我們還具有很多借鑒意義。深度學(xué)習(xí)方法很多時(shí)候是一個(gè)黑盒子,確定輸入,約束好輸出,實(shí)際上中間并不知道發(fā)生了什么。在這樣一個(gè)情況下,我們很難去提升。通過傳統(tǒng)方法,我們基本上可以理清問題的脈絡(luò),有一些可以分析借鑒的部分。

目前將深度學(xué)習(xí)用于 OCR 的局限性有哪些?在 OCR 領(lǐng)域,有哪些值得我們研究和思考的問題?

白翔:目前深度學(xué)習(xí)在 OCR 領(lǐng)域的局限性仍然比較大,當(dāng)前有幾個(gè)比較迫切的方向值得我們深入思考:

1)不規(guī)則排列的文字檢測(cè)與識(shí)別仍然非常棘手。如果不結(jié)合足夠的先驗(yàn)知識(shí),僅僅通過大量的標(biāo)注樣本學(xué)習(xí)并不能徹底解決。

2)深度學(xué)習(xí)模型的泛化能力有限。這一問題在文本檢測(cè)任務(wù)上尤為明顯,現(xiàn)有的方法基本是在與測(cè)試場(chǎng)景相關(guān)的數(shù)據(jù)上進(jìn)行訓(xùn)練,更換一個(gè)場(chǎng)景可能會(huì)完全沒有辦法使用。

3)非拉丁文識(shí)別,尤其是中文識(shí)別仍然是難點(diǎn)問題,這反映在中文的長(zhǎng)短效應(yīng)、樣本類別多、相近漢字的細(xì)粒度差別等方面。

(完)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

ICPR 2018 上,阿里巴巴舉辦首屆深度學(xué)習(xí)文本分析與識(shí)別研討會(huì)

分享:
相關(guān)文章

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說