國有大行OCR「進化論」：一個雙劍合璧的「樣本」

本文作者：胡敏

2022-09-08 19:09

導(dǎo)語：一張小票據(jù)，也蘊藏著騰訊優(yōu)圖的底氣和耐性。

面對版式不固定、特殊字符

定制化OCR「不靈了」

在銀行這片票據(jù)“集散地”上，OCR并非新鮮事物。

早在2017、2018年，隨著銀行各業(yè)務(wù)線數(shù)字化轉(zhuǎn)型提速，涉及憑證票證類別的需求不斷增加，各大銀行就將大量定制化OCR模型引入業(yè)務(wù)系統(tǒng)。

這讓原本全憑“手工勞作”的票據(jù)錄入，搭乘上效率“直升機”，沖破了票據(jù)處理的效率屏障。

國有大行探索OCR的時間則更早。

2013年，在數(shù)字化號角還未吹得像今天這般響亮?xí)r，某國有大行便成立專門的技術(shù)研發(fā)團隊，完成了OCR技術(shù)從0到1的探索。遵照“兩錄一校”的原則，原來需由兩位錄入員分別錄入憑證信息的工作，隨著OCR技術(shù)應(yīng)用，替換成了一位人工錄入，一位OCR錄入，錄入人員立馬減半。

不過，隨著在OCR領(lǐng)域的深入探索，這家大型銀行也發(fā)現(xiàn)，現(xiàn)有OCR技術(shù)能識別身份證、銀行卡等證件、增值稅專用發(fā)票、增值稅普通發(fā)票等有固定版式、文檔相對簡單的內(nèi)容，但在面對銀行許多長尾場景下偏復(fù)雜的識別時，就容易無能為力。

特別是遇到以下兩種情況：第一票據(jù)版式不固定、樣本量較少；第二文檔中含有手寫體、中英韓法等多種語言、特殊字符等，識別準確率大大降低。

過往，為應(yīng)對這些棘手問題，他們只能在前端繼續(xù)投入大量人力進行錄入和校驗，而在后端，則增加開發(fā)人員，對新出現(xiàn)的版式進行模型的重新配置。

眾所周知，銀行票據(jù)種類、版式多如牛毛，開發(fā)人員不斷“打補丁”的方式也只是杯水車薪、隔靴搔癢。

騰訊云售前架構(gòu)師阿凱告訴雷峰網(wǎng)(公眾號：雷峰網(wǎng))，今年年初，他與這家國有大行研發(fā)中心負責(zé)OCR的項目經(jīng)理溝通時發(fā)現(xiàn)，對方已經(jīng)圍繞OCR的整體研發(fā)，打造了一支非常專業(yè)的團隊。

到底如何提升OCR的能力，使其能對除固定版式、常規(guī)文檔之外的版式、信息進行識別提取，并直接錄入，且保證識別準確率？

今年年初，騰訊云副總裁、騰訊優(yōu)圖實驗室總經(jīng)理吳運聲去到了銀行，與對方金融科技院院長見了一面，讓這一問題有了新的解法。

多模態(tài)融合技術(shù)

提升OCR模型泛化能力

事實上，騰訊優(yōu)圖也一直在嘗試攻克版式不固定、識別準確性的問題。

去年到今年，他們在OCR技術(shù)上發(fā)表了一系列的論文。其中關(guān)注復(fù)雜場景文檔信息提取的有三篇，分別著眼在大規(guī)模多模態(tài)文檔預(yù)訓(xùn)練模型、泛化版式文檔信息提取、表格等復(fù)雜關(guān)系提取。直面挑戰(zhàn)，攻克業(yè)界難題。

這里需理解一下多模態(tài)和單一模態(tài)。多模態(tài)是融合視覺信息、語義信息、布局排版信息等單一模態(tài)的集合體。騰訊優(yōu)圖在多模態(tài)文檔預(yù)訓(xùn)練的基礎(chǔ)上，進一步統(tǒng)一了文檔結(jié)構(gòu)化信息提取范式，形成智能結(jié)構(gòu)化基礎(chǔ)模型，單一模型支持5000種以上版式。

就好比培養(yǎng)人的運動技能，基于常規(guī)多模態(tài)進行大規(guī)模訓(xùn)練的模型，只是針對一項基本能力，比如說腿部力量，進行重點訓(xùn)練；而基于智能結(jié)構(gòu)化基礎(chǔ)模型，則是提前教會你足球、籃球、網(wǎng)球多項等運動的關(guān)鍵動作，這樣人們就能在日常生活中參與不同的運動。

放在金融文檔識別場景中，基于這種方式訓(xùn)練出來的模型，泛化能力得到了極大提升，不論是銀行單據(jù)、票證、憑證等，它都能進行高精度的信息提取。

而這也恰恰解決了該銀行一直以來的困擾。

今年年初，在雙方高層進行溝通后的短短一個月內(nèi)，該銀行就決定引入騰訊云TI-OCR產(chǎn)品，基于騰訊優(yōu)圖實驗室在OCR領(lǐng)域多年的積累，來對銀行業(yè)務(wù)處理票據(jù)錄入過程中的十大重點場景進行優(yōu)化升級，并把這一項目名稱取名為“多模態(tài)融合應(yīng)用于計算機視覺”。

騰訊云產(chǎn)品架構(gòu)師阿凱表示：“不論是信息提取還是表格還原，都用了多模態(tài)技術(shù)，這也給整個項目定調(diào)。”

成立聯(lián)合實驗室

讓技術(shù)與業(yè)務(wù)更相融

以往，騰訊云往往是通過向客戶提供算法包、訓(xùn)練平臺等原子化產(chǎn)品進行合作。但事實上，若要真正和客戶的實際業(yè)務(wù)相結(jié)合，不免還需涉及一些工程業(yè)務(wù)方面的開發(fā)。

為讓技術(shù)與業(yè)務(wù)更相融合，雙方?jīng)Q定成立聯(lián)合實驗室，探索更深入的合作。然而，剛開展合作就遇到的一個難題：銀行場景復(fù)雜多樣，到底選擇從哪一個場景開始下手？

騰訊優(yōu)圖算法研究員浩宇印象很深刻：“一開始確定業(yè)務(wù)場景時，行方一開始邀請我們分析了有差不多上千種場景，并梳理了其中痛點問題?！?/p>

通過反復(fù)分析，最終雙方達成一致，先啃“硬骨頭”，決定最先在托管對賬單、提單以及集中錄入這三個業(yè)務(wù)場景的結(jié)構(gòu)化識別中用上多模態(tài)技術(shù)。

“托管對賬單、提單這幾個場景在業(yè)界比較接近天花板的難度?！苯桓都軜?gòu)師秋健對雷峰網(wǎng)說。

國有大行OCR「進化論」：一個雙劍合璧的「樣本」

提單樣本圖，圖源網(wǎng)絡(luò)

以基金公司托管對賬單為例，各家基金公司在銀行內(nèi)部托管一個公共賬號，記錄了投資人每一時段各基金持有份額和所有交易明細等，以方便投資人定期了解自己的交易情況。

這場景最大的難點有三個：

第一，版式多、樣本少。基金公司眾多且每家公司的賬單版式都不相同，且隨著業(yè)務(wù)擴展或變更，賬單板式也在發(fā)生變化。此外，也存在一些基金賬單比較少的情況，這都十分考驗OCR結(jié)構(gòu)化提取模型。

第二，具有表格等復(fù)雜關(guān)系。多數(shù)基金賬單都是以表格形式呈現(xiàn)，比如，XX在某年某月某日交易了XX金額，這需要OCR能夠從表格里面去提取結(jié)構(gòu)化信息，而這也是目前業(yè)界普遍面臨的難點。

第三，還存在字段嵌套、容易混淆等問題。比如在基金單交易中，同時存在多個相同形式表格，但表頭的時間或含義不同，這要求OCR能夠區(qū)分出來各種表格對應(yīng)的具體含義。

國有大行OCR「進化論」：一個雙劍合璧的「樣本」

從實驗室走向?qū)嶋H應(yīng)用

還有兩道坎要跨越

今年四月中旬，騰訊云動身派駐項目經(jīng)理、算法研究員、交付架構(gòu)師等項目成員去到該銀行，了解其實際業(yè)務(wù)運行情況，并確定方案進行指導(dǎo)標注。

然后，在合作過程中，他們也發(fā)現(xiàn)，OCR技術(shù)從實驗室走向?qū)嶋H應(yīng)用時，也還有一些坎需要跨越：

如何讓產(chǎn)品更滿足業(yè)務(wù)的需求？

即便是在實驗室打磨訓(xùn)練過多次的產(chǎn)品，在遇到復(fù)雜的業(yè)務(wù)場景時，難免還是“不夠用”，需要項目團隊在產(chǎn)品實際落地過程中結(jié)合業(yè)務(wù)進一步“查漏補缺”。

浩宇提到，他們在印鑒卡的問題分析過程中就曾遇到過一個類似刮獎的密碼驗證圖層，在單據(jù)識別過程中，需驗證涂層是否完整，以及識別密碼涂層刮開后的文字?！斑@是我們在實驗室中完全沒見過的?！?/p>

與此同時，在實驗室中對事物的重要性判斷，和現(xiàn)實也可能會出現(xiàn)偏差。比如，實驗室更看重如何對表格中的信息進行提取，但在實際業(yè)務(wù)層面，還需要關(guān)注表格信息的含義，比如這是當前的基金交易信息，還是歷史交易信息。

雙劍合璧

票據(jù)識別漸入「無人區(qū)」

面對這些分歧，雙方共同協(xié)商討論、解決問題也變得十分重要。

國有大行OCR「進化論」：一個雙劍合璧的「樣本」

騰訊云、優(yōu)圖實驗室項目團隊交流中

經(jīng)過半年的接觸和交流，交付架構(gòu)師少凱談到，整個項目讓他感觸最深的有三個點，第一是銀行的配合和參與，第二是銀行的開放心態(tài)，第三是銀行愿意學(xué)習(xí)的心態(tài)。

拿樣本圖舉例，一般樣本圖都散落在各個業(yè)務(wù)部門，開發(fā)部門也需要內(nèi)部協(xié)調(diào)才能拿到樣本圖，但銀行每一次都會快速響應(yīng)，及時從業(yè)務(wù)部門收集樣本圖。

與此同時，在整個合作過程，該銀行也一直強調(diào)，這次合作不僅是要獲得一套新工具，而且還要讓自己內(nèi)部員工學(xué)習(xí)如何進行模型訓(xùn)練，以及對模型訓(xùn)練平臺有更深入了解，以便未來用到更多的場景中去。

托管對賬單這一場景從今年7月份左右開始正式建模，經(jīng)過雙方的反復(fù)測試、溝通、改進，其字段識別準確率目前已達90%以上。此外，包括提單、集中錄入等9個場景，也將陸續(xù)上線。

隨著這種多模態(tài)技術(shù)加速滲透具體業(yè)務(wù)場景，該銀行也初嘗數(shù)字化的甜頭，其前端錄入環(huán)節(jié)將從單OCR錄入改為雙OCR錄入，減少了至少1/3左右的成本投入。

而后端開發(fā)上，以前開發(fā)人員需花上兩三天時間進行新版式的開發(fā)，現(xiàn)如今只需要拿幾張圖進行標注訓(xùn)練，一小時就能夠完成整體的訓(xùn)練和上線的流程，極大提升了訓(xùn)練效率，減輕了開發(fā)人員負擔。

接下來雙方也將繼續(xù)“雙劍合璧”，通過聯(lián)合開發(fā)，讓票據(jù)識別向智能化、自動化邁進，讓票據(jù)錄入逐漸走入“無人區(qū)”。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

胡敏

主筆

關(guān)注云計算、企服，歡迎找我爆料。微信：mindy1857，加好友請備注公司、姓名及來意

掃描關(guān)注作者微信

發(fā)私信

當月熱門文章

國有大行OCR「進化論」：一個雙劍合璧的「樣本」

面對版式不固定、特殊字符

定制化OCR「不靈了」

多模態(tài)融合技術(shù)

提升OCR模型泛化能力

成立聯(lián)合實驗室

讓技術(shù)與業(yè)務(wù)更相融

從實驗室走向?qū)嶋H應(yīng)用

還有兩道坎要跨越

雙劍合璧

票據(jù)識別漸入「無人區(qū)」

面對版式不固定、特殊字符