0
本文作者: 汪思穎 | 2018-08-27 16:32 |
雷鋒網(wǎng) AI 科技評論按,日前,第 24 屆國際模式識別大會 ICPR 2018 在北京國家會議中心召開,這也是其創(chuàng)辦以來第一次在中國內地召開。講者包括南京大學周志華教授,香港科技大學權龍教授,福特汽車公司高級技術主管 K. Venkatesh Prasad,牛津大學 Alison Noble 教授。除了陣容強大的講者,這次會議還包括多個研討會、講習班等,其中不乏中國企業(yè)和高校的身影。
會議首日,阿里巴巴「圖像和美」團隊聯(lián)手華中科技大學、中科院自動化所共同舉辦首屆 Deep Learning for Document Analysis and Recognition 研討會。此外,阿里巴巴「圖像和美」團隊聯(lián)合華南理工大學共同舉辦的 ICPR MTWI 2018 挑戰(zhàn)賽也在當天進行了報告和頒獎,這一挑戰(zhàn)賽基于阿里標注并公開的 MTWI 數(shù)據(jù)集,這是現(xiàn)有難度最大、內容最豐富的網(wǎng)絡圖片 OCR 數(shù)據(jù)集,也是阿里首個公開的 OCR 數(shù)據(jù)集。阿里巴巴「圖像和美」團隊由于這一系列活動,在雷鋒網(wǎng)旗下學術頻道 AI 科技評論數(shù)據(jù)庫產(chǎn)品「AI 影響因子」上有相應加分。
Deep Learning for Document Analysis and Recognition 研討會主席王永攀目前是阿里巴巴「圖像和美」團隊讀光 OCR 負責人,她對雷鋒網(wǎng) AI 科技評論表示,舉辦此次研討會的原因有二,「一方面,希望向大家展示阿里在 OCR 上的一系列工作;另一方面,想把阿里關注 OCR 這件事情告訴大家,吸引到更多的學者教授來關注阿里所關注的問題?!?/p>
她進一步說道,阿里 OCR 團隊對外發(fā)聲并不多,但實際上,在阿里集團內部,讀光 OCR 的應用已經(jīng)非常廣泛,早在 2016 年,他們就已經(jīng)實現(xiàn)了大規(guī)模的集團內系統(tǒng)。目前,讀光 OCR 在辦公自動化、文檔電子化、數(shù)據(jù)智能等場景均有應用。
華中科技大學白翔教授也是此次研討會主席,負責部分講者的邀請以及程序上的安排。他的主要研究領域為計算機視覺與模式識別、深度學習,已在相關領域一流國際期刊和會議如 PAMI、IJCV、CVPR、ICCV、ECCV、NIPS、ICML、ICDAR 上發(fā)表論文 30 余篇。
對于與阿里攜手舉辦這次研討會的契機,他表示,此前他曾與阿里「圖象和美」團隊進行過一次學術交流,阿里在 OCR 產(chǎn)品落地方面所取得的成績令他印象深刻。「王永攀和阿里巴巴的小伙伴成功將我之前的工作 CRNN 落地于中文識別,在網(wǎng)絡文本識別上取得了 90% 以上的驚人識別精度。這在 CRNN 原著論文里也不曾做到。」
但他們雙方都感到 OCR 的實際需求和學術研究之間存在著兩大方面鴻溝:1)現(xiàn)有的公開 OCR 測試集并不能完全反映實際應用里面臨的一些瓶頸問題;2)工業(yè)界一直有在關注學界關于 OCR 的研究進展,但面對面交流的機會太少,影響了 OCR 產(chǎn)業(yè)化的進程。
針對以上問題,他們經(jīng)過多次反復協(xié)商,共同完成了 ICPR 2018 MTWI 挑戰(zhàn)賽和 OCR 學術研討會?!阜浅8吲d阿里巴巴起到了表率作用,免費開放一大批數(shù)據(jù)給學界,并參與組織了一次成功的學術研討會。希望這次成功的嘗試是未來工業(yè)界與學術界更加緊密合作的一個良好開端?!拱紫枞缡潜硎?。
這次研討會的報告嘉賓有 IAPR 主席 Simone Marinai 副教授、華南理工大學金連文教授、海得拉巴信息技術國際研究所(IIIT Hyderabad)C.V.Jawahar 教授、碼隆首席科學家黃偉林、阿里高級算法專家趙華廈、阿里讀光 OCR 負責人王永攀,討論內容涉及文檔圖像分析、端到端識別、信息提取等多個話題。
王永攀表示,希望能和大家一起合作,讓這次研討會發(fā)揮實際意義,讓更多 OCR 產(chǎn)品與技術走出去。
研討會特別設立圓桌討論環(huán)節(jié),議題是深度學習在 OCR 和 DAR 上的未來發(fā)展趨勢。對于這些問題,王永攀、白翔也與雷鋒網(wǎng) AI 科技評論進行了更進一步的探討。以下為問答環(huán)節(jié):
問:文字識別任務場景眾多,例如手寫、場景、文檔,追求端到端統(tǒng)一的解決方案是否可行?是否有必要?
王永攀:在特定場景,端到端的方案是可行的,但可能不是最優(yōu)解法。端到端的方法看起來比較優(yōu)雅,但是會導致更大的不確定性,比如可能會導致問題定義不清,網(wǎng)絡參數(shù)和訓練數(shù)據(jù)都會劇增。我們也在嘗試一些端到端的方案,端到端的本質是打破算法之間的壁壘。以文字識別為例,端到端表面上看似乎是去掉了檢測的流程,直接由整圖得到文字內容,實際上這是一個試圖打破檢測和識別壁壘甚至矛盾的過程。在研究者意識到檢測和識別之間有不可調和的矛盾時,當他們試圖解決這個矛盾的過程中,會誕生出很多新的思想和方法。我們覺得在嘗試打破檢測識別壁壘這條道路上走下去是沒問題的,至于最終是不是端到端反而不那么重要。
深度學習目前取得的突破也得益于數(shù)據(jù)集的發(fā)展,基于此,圓桌討論上也提出如下問題:為了促進學術發(fā)展,學術界需要哪些數(shù)據(jù)集,需要什么樣的數(shù)據(jù)集?怎樣才能激勵數(shù)據(jù)擁有方提供數(shù)據(jù)?
王永攀:首先,我們認為數(shù)據(jù)集不僅是數(shù)據(jù),構建數(shù)據(jù)集是一個系統(tǒng)工程,「圖像和美」團隊在《視覺求索》上發(fā)表的文章「如何做一個實用的圖像數(shù)據(jù)集」對數(shù)據(jù)集的建立有系統(tǒng)的描述:
數(shù)據(jù)集奠定的技術發(fā)展,建立系統(tǒng)的數(shù)據(jù)集是學術界和工業(yè)界共同的話題。
構建一個數(shù)據(jù)集,首先要考慮數(shù)據(jù)集的知識價值和應用價值,知識價值有的時候可以理解為學術價值,指的是該數(shù)據(jù)集是否映射特定的知識點,這些知識點是否值得去研究。應用價值是指數(shù)據(jù)集能否解決實際需求。其次,從知識價值和應用價值角度出發(fā),才能做好數(shù)據(jù)收集、標注、標準制定等后續(xù)工作。我們所構建的 MTWI 數(shù)據(jù)集,來源于真實的工業(yè)界,側重收集那些具有普適性難點的數(shù)據(jù)。所以,在我們看來,無論是學術界的數(shù)據(jù)集還是工業(yè)界的數(shù)據(jù)集都要考慮到對方的需求,不能只看研究知識點,也不能只解決工業(yè)應用問題。
未來工業(yè)界和學術界要有更多的交流,學術界了解技術落地時遇到的新問題,工業(yè)界去學習如何把問題抽象成通用的知識難點。最后說一點,我們應該鼓勵更多的數(shù)據(jù)持有者貢獻非機密數(shù)據(jù),也希望數(shù)據(jù)使用者能讓數(shù)據(jù)提供者有知情權,尊重知識產(chǎn)權。
OCR 涉及文字識別與文本理解,與計算機視覺(CV)以及自然語言處理(NLP)緊密相關,那么 CV 和 NLP 該如何結合,兩個領域應該如何建立長效合作?
王永攀:視覺是捕捉信息最常用最直接的方式,而語言是人類對信息進行抽象思維的媒介,對于大量的真實的人工智能應用來說,兩者是密不可分的前后步驟。文字識別和文檔分析就是一個典型的案例。然而 CV 和 NLP 現(xiàn)在是完全獨立的研究領域,各自都有大量問題沒有解決,沒有強烈的意愿進行合作,因此如何建立長效合作機制是一個很困難的問題,也是我們一直在探索的方向。
要想解決這個問題,我們認為首先需要有一批勇敢的跨界研究者,他們熟悉兩個領域的問題和方法,能夠定義清楚背后的理論問題,進而還可以清晰地劃分出 CV 和 NLP 適用的邊界。這樣才能降低門檻,吸引到更多的參與者,包括那些專精 CV 或 NLP 領域的研究者。
其次還需要逐漸完善跨界研究的基礎設施,例如公開的有挑戰(zhàn)性的數(shù)據(jù)集和競賽,長期的學術討論會議,以及從研究到產(chǎn)業(yè)化的落地渠道等。只有這樣才能讓合作變得長久。
目前阿里在實踐中對傳統(tǒng)算法和深度學習算法的使用情況如何?
王永攀:現(xiàn)在主流的偏應用的方法基本上都是深度學習,傳統(tǒng)方法更多的是做研究,或者做 baseline。當涉及到一個新問題時,我們可能會先用傳統(tǒng)方式去嘗試,看傳統(tǒng)方法是否能解決這個問題,然后再做 baseline。這時候,如果傳統(tǒng)方法能做到 70%,我們會用深度學習的方法嘗試能不能把結果提升到更高,如 80%、90% 以上。
此外,傳統(tǒng)方法對我們還具有很多借鑒意義。深度學習方法很多時候是一個黑盒子,確定輸入,約束好輸出,實際上中間并不知道發(fā)生了什么。在這樣一個情況下,我們很難去提升。通過傳統(tǒng)方法,我們基本上可以理清問題的脈絡,有一些可以分析借鑒的部分。
目前將深度學習用于 OCR 的局限性有哪些?在 OCR 領域,有哪些值得我們研究和思考的問題?
白翔:目前深度學習在 OCR 領域的局限性仍然比較大,當前有幾個比較迫切的方向值得我們深入思考:
1)不規(guī)則排列的文字檢測與識別仍然非常棘手。如果不結合足夠的先驗知識,僅僅通過大量的標注樣本學習并不能徹底解決。
2)深度學習模型的泛化能力有限。這一問題在文本檢測任務上尤為明顯,現(xiàn)有的方法基本是在與測試場景相關的數(shù)據(jù)上進行訓練,更換一個場景可能會完全沒有辦法使用。
3)非拉丁文識別,尤其是中文識別仍然是難點問題,這反映在中文的長短效應、樣本類別多、相近漢字的細粒度差別等方面。
(完)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。