丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給汪思穎
發(fā)送

0

ICPR 2018 上,阿里巴巴舉辦首屆深度學習文本分析與識別研討會

本文作者: 汪思穎 2018-08-27 16:32
導語:目前深度學習在 OCR 領(lǐng)域的局限性仍比較大,不規(guī)則排列的文字檢測與識別仍非常棘手,深度學習模型的泛化能力有限,非拉丁文識別依舊是難點。這些都值得研究和思考。
活動
企業(yè):阿里巴巴
操作:舉辦研討會
事項:

雷鋒網(wǎng) AI 科技評論按,日前,第 24 屆國際模式識別大會 ICPR 2018 在北京國家會議中心召開,這也是其創(chuàng)辦以來第一次在中國內(nèi)地召開。講者包括南京大學周志華教授,香港科技大學權(quán)龍教授,福特汽車公司高級技術(shù)主管 K. Venkatesh Prasad,牛津大學 Alison Noble 教授。除了陣容強大的講者,這次會議還包括多個研討會、講習班等,其中不乏中國企業(yè)和高校的身影。

ICPR 2018 上,阿里巴巴舉辦首屆深度學習文本分析與識別研討會

會議首日,阿里巴巴「圖像和美」團隊聯(lián)手華中科技大學、中科院自動化所共同舉辦首屆 Deep Learning for Document Analysis and Recognition 研討會。此外,阿里巴巴「圖像和美」團隊聯(lián)合華南理工大學共同舉辦的 ICPR MTWI 2018 挑戰(zhàn)賽也在當天進行了報告和頒獎,這一挑戰(zhàn)賽基于阿里標注并公開的 MTWI 數(shù)據(jù)集,這是現(xiàn)有難度最大、內(nèi)容最豐富的網(wǎng)絡(luò)圖片 OCR 數(shù)據(jù)集,也是阿里首個公開的 OCR 數(shù)據(jù)集。阿里巴巴「圖像和美」團隊由于這一系列活動,在雷鋒網(wǎng)旗下學術(shù)頻道 AI 科技評論數(shù)據(jù)庫產(chǎn)品「AI 影響因子」上有相應(yīng)加分。

Deep Learning for Document Analysis and Recognition 研討會主席王永攀目前是阿里巴巴「圖像和美」團隊讀光 OCR 負責人,她對雷鋒網(wǎng) AI 科技評論表示,舉辦此次研討會的原因有二,「一方面,希望向大家展示阿里在 OCR 上的一系列工作;另一方面,想把阿里關(guān)注 OCR 這件事情告訴大家,吸引到更多的學者教授來關(guān)注阿里所關(guān)注的問題?!?/p>

她進一步說道,阿里 OCR 團隊對外發(fā)聲并不多,但實際上,在阿里集團內(nèi)部,讀光 OCR 的應(yīng)用已經(jīng)非常廣泛,早在 2016 年,他們就已經(jīng)實現(xiàn)了大規(guī)模的集團內(nèi)系統(tǒng)。目前,讀光 OCR 在辦公自動化、文檔電子化、數(shù)據(jù)智能等場景均有應(yīng)用。

華中科技大學白翔教授也是此次研討會主席,負責部分講者的邀請以及程序上的安排。他的主要研究領(lǐng)域為計算機視覺與模式識別、深度學習,已在相關(guān)領(lǐng)域一流國際期刊和會議如 PAMI、IJCV、CVPR、ICCV、ECCV、NIPS、ICML、ICDAR 上發(fā)表論文 30 余篇。

對于與阿里攜手舉辦這次研討會的契機,他表示,此前他曾與阿里「圖象和美」團隊進行過一次學術(shù)交流,阿里在 OCR 產(chǎn)品落地方面所取得的成績令他印象深刻?!竿跤琅屎桶⒗锇桶偷男』锇槌晒⑽抑暗墓ぷ?CRNN 落地于中文識別,在網(wǎng)絡(luò)文本識別上取得了 90% 以上的驚人識別精度。這在 CRNN 原著論文里也不曾做到?!?/p>

但他們雙方都感到 OCR 的實際需求和學術(shù)研究之間存在著兩大方面鴻溝:1)現(xiàn)有的公開 OCR 測試集并不能完全反映實際應(yīng)用里面臨的一些瓶頸問題;2)工業(yè)界一直有在關(guān)注學界關(guān)于 OCR 的研究進展,但面對面交流的機會太少,影響了 OCR 產(chǎn)業(yè)化的進程。

針對以上問題,他們經(jīng)過多次反復協(xié)商,共同完成了 ICPR 2018 MTWI 挑戰(zhàn)賽和 OCR 學術(shù)研討會。「非常高興阿里巴巴起到了表率作用,免費開放一大批數(shù)據(jù)給學界,并參與組織了一次成功的學術(shù)研討會。希望這次成功的嘗試是未來工業(yè)界與學術(shù)界更加緊密合作的一個良好開端。」白翔如是表示。

這次研討會的報告嘉賓有 IAPR 主席 Simone Marinai 副教授、華南理工大學金連文教授、海得拉巴信息技術(shù)國際研究所(IIIT Hyderabad)C.V.Jawahar 教授、碼隆首席科學家黃偉林、阿里高級算法專家趙華廈、阿里讀光 OCR 負責人王永攀,討論內(nèi)容涉及文檔圖像分析、端到端識別、信息提取等多個話題。

王永攀表示,希望能和大家一起合作,讓這次研討會發(fā)揮實際意義,讓更多 OCR 產(chǎn)品與技術(shù)走出去。

研討會特別設(shè)立圓桌討論環(huán)節(jié),議題是深度學習在 OCR 和 DAR 上的未來發(fā)展趨勢。對于這些問題,王永攀、白翔也與雷鋒網(wǎng) AI 科技評論進行了更進一步的探討。以下為問答環(huán)節(jié):

問:文字識別任務(wù)場景眾多,例如手寫、場景、文檔,追求端到端統(tǒng)一的解決方案是否可行?是否有必要?

王永攀:在特定場景,端到端的方案是可行的,但可能不是最優(yōu)解法。端到端的方法看起來比較優(yōu)雅,但是會導致更大的不確定性,比如可能會導致問題定義不清,網(wǎng)絡(luò)參數(shù)和訓練數(shù)據(jù)都會劇增。我們也在嘗試一些端到端的方案,端到端的本質(zhì)是打破算法之間的壁壘。以文字識別為例,端到端表面上看似乎是去掉了檢測的流程,直接由整圖得到文字內(nèi)容,實際上這是一個試圖打破檢測和識別壁壘甚至矛盾的過程。在研究者意識到檢測和識別之間有不可調(diào)和的矛盾時,當他們試圖解決這個矛盾的過程中,會誕生出很多新的思想和方法。我們覺得在嘗試打破檢測識別壁壘這條道路上走下去是沒問題的,至于最終是不是端到端反而不那么重要。

深度學習目前取得的突破也得益于數(shù)據(jù)集的發(fā)展,基于此,圓桌討論上也提出如下問題:為了促進學術(shù)發(fā)展,學術(shù)界需要哪些數(shù)據(jù)集,需要什么樣的數(shù)據(jù)集?怎樣才能激勵數(shù)據(jù)擁有方提供數(shù)據(jù)?

王永攀:首先,我們認為數(shù)據(jù)集不僅是數(shù)據(jù),構(gòu)建數(shù)據(jù)集是一個系統(tǒng)工程,「圖像和美」團隊在《視覺求索》上發(fā)表的文章「如何做一個實用的圖像數(shù)據(jù)集」對數(shù)據(jù)集的建立有系統(tǒng)的描述:

數(shù)據(jù)集奠定的技術(shù)發(fā)展,建立系統(tǒng)的數(shù)據(jù)集是學術(shù)界和工業(yè)界共同的話題。

構(gòu)建一個數(shù)據(jù)集,首先要考慮數(shù)據(jù)集的知識價值和應(yīng)用價值,知識價值有的時候可以理解為學術(shù)價值,指的是該數(shù)據(jù)集是否映射特定的知識點,這些知識點是否值得去研究。應(yīng)用價值是指數(shù)據(jù)集能否解決實際需求。其次,從知識價值和應(yīng)用價值角度出發(fā),才能做好數(shù)據(jù)收集、標注、標準制定等后續(xù)工作。我們所構(gòu)建的 MTWI 數(shù)據(jù)集,來源于真實的工業(yè)界,側(cè)重收集那些具有普適性難點的數(shù)據(jù)。所以,在我們看來,無論是學術(shù)界的數(shù)據(jù)集還是工業(yè)界的數(shù)據(jù)集都要考慮到對方的需求,不能只看研究知識點,也不能只解決工業(yè)應(yīng)用問題。

未來工業(yè)界和學術(shù)界要有更多的交流,學術(shù)界了解技術(shù)落地時遇到的新問題,工業(yè)界去學習如何把問題抽象成通用的知識難點。最后說一點,我們應(yīng)該鼓勵更多的數(shù)據(jù)持有者貢獻非機密數(shù)據(jù),也希望數(shù)據(jù)使用者能讓數(shù)據(jù)提供者有知情權(quán),尊重知識產(chǎn)權(quán)。

OCR 涉及文字識別與文本理解,與計算機視覺(CV)以及自然語言處理(NLP)緊密相關(guān),那么 CV 和 NLP 該如何結(jié)合,兩個領(lǐng)域應(yīng)該如何建立長效合作?

王永攀:視覺是捕捉信息最常用最直接的方式,而語言是人類對信息進行抽象思維的媒介,對于大量的真實的人工智能應(yīng)用來說,兩者是密不可分的前后步驟。文字識別和文檔分析就是一個典型的案例。然而 CV 和 NLP 現(xiàn)在是完全獨立的研究領(lǐng)域,各自都有大量問題沒有解決,沒有強烈的意愿進行合作,因此如何建立長效合作機制是一個很困難的問題,也是我們一直在探索的方向。

要想解決這個問題,我們認為首先需要有一批勇敢的跨界研究者,他們熟悉兩個領(lǐng)域的問題和方法,能夠定義清楚背后的理論問題,進而還可以清晰地劃分出 CV 和 NLP 適用的邊界。這樣才能降低門檻,吸引到更多的參與者,包括那些專精 CV 或 NLP 領(lǐng)域的研究者。

其次還需要逐漸完善跨界研究的基礎(chǔ)設(shè)施,例如公開的有挑戰(zhàn)性的數(shù)據(jù)集和競賽,長期的學術(shù)討論會議,以及從研究到產(chǎn)業(yè)化的落地渠道等。只有這樣才能讓合作變得長久。

目前阿里在實踐中對傳統(tǒng)算法和深度學習算法的使用情況如何?

王永攀:現(xiàn)在主流的偏應(yīng)用的方法基本上都是深度學習,傳統(tǒng)方法更多的是做研究,或者做 baseline。當涉及到一個新問題時,我們可能會先用傳統(tǒng)方式去嘗試,看傳統(tǒng)方法是否能解決這個問題,然后再做 baseline。這時候,如果傳統(tǒng)方法能做到 70%,我們會用深度學習的方法嘗試能不能把結(jié)果提升到更高,如 80%、90% 以上。

此外,傳統(tǒng)方法對我們還具有很多借鑒意義。深度學習方法很多時候是一個黑盒子,確定輸入,約束好輸出,實際上中間并不知道發(fā)生了什么。在這樣一個情況下,我們很難去提升。通過傳統(tǒng)方法,我們基本上可以理清問題的脈絡(luò),有一些可以分析借鑒的部分。

目前將深度學習用于 OCR 的局限性有哪些?在 OCR 領(lǐng)域,有哪些值得我們研究和思考的問題?

白翔:目前深度學習在 OCR 領(lǐng)域的局限性仍然比較大,當前有幾個比較迫切的方向值得我們深入思考:

1)不規(guī)則排列的文字檢測與識別仍然非常棘手。如果不結(jié)合足夠的先驗知識,僅僅通過大量的標注樣本學習并不能徹底解決。

2)深度學習模型的泛化能力有限。這一問題在文本檢測任務(wù)上尤為明顯,現(xiàn)有的方法基本是在與測試場景相關(guān)的數(shù)據(jù)上進行訓練,更換一個場景可能會完全沒有辦法使用。

3)非拉丁文識別,尤其是中文識別仍然是難點問題,這反映在中文的長短效應(yīng)、樣本類別多、相近漢字的細粒度差別等方面。

(完)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

ICPR 2018 上,阿里巴巴舉辦首屆深度學習文本分析與識別研討會

分享:
相關(guān)文章

編輯

關(guān)注AI學術(shù),例如論文
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說