0
“證券行業(yè)有一個非常細分,但也是痛點最痛的場景,即為機構(gòu)客戶辦理非現(xiàn)場見證開戶時,如何實現(xiàn)資料的高效上傳。”華福證券運營管理部負責人林佳告訴雷峰網(wǎng),在券商帳戶業(yè)務(wù)中,機構(gòu)開戶所需的材料多且復(fù)雜。“身份材料加上開戶表單,至少要十二三份,同時還要兼顧表單內(nèi)容的規(guī)范性和材料的齊備性?!?/p>
雖然以往也有OCR(光學(xué)字符識別)技術(shù)的相關(guān)應(yīng)用,但始終存在一些不足,比如對手寫體識別效果不佳;長文提取關(guān)鍵字段信息難;在密集表格、單元格中文本換行等場景下識別效果不佳等問題。
大模型技術(shù)熱潮下,是否有新的破局之道?成為業(yè)內(nèi)關(guān)注焦點。華福證券與騰訊云對此進行了合作嘗試。
華福證券數(shù)智賦能部研發(fā)中心總經(jīng)理謝琪告訴雷峰網(wǎng),近日,在騰訊云TI-OCR 平臺的支持下,ISV思迪信息對華福證券的機構(gòu)開戶系統(tǒng)——“福牛行”進行2.0升級,實現(xiàn)了開戶效率50%左右的提升。
值得注意的是,“這是大模型熱潮下,騰訊云TI-OCR 平臺在資管行業(yè)里,首個影像資料智能分揀場景的落地?!彬v訊云智能高級產(chǎn)品架構(gòu)師丁鵬強調(diào)道。
大模型驅(qū)動的OCR和傳統(tǒng)OCR相比有什么區(qū)別?引入大模型后效率提升究竟幾何?騰訊云對OCR領(lǐng)域的布局有哪些心得?以及如何應(yīng)對大模型帶來的幻覺等問題?
針對這些疑問,近日,雷峰網(wǎng)(公眾號:雷峰網(wǎng))等媒體采訪了謝琪、林佳和丁鵬三位深度參與此次項目的專家,詳解項目落地過程中的經(jīng)驗與思考。
問題:引入大模型能力,解決了華福證券哪一關(guān)鍵痛點?
林佳:以“智能分揀項目”為例,華福此次的智能分揀項目聚焦在員工為機構(gòu)客戶辦理非現(xiàn)場見證開戶時資料上傳的場景。這是一個非常細分,但也是痛點最痛的場景。
眾所周知,開戶尤其是機構(gòu)的開戶,是券商賬戶業(yè)務(wù)中最難、最復(fù)雜的項目。首先它難在需要填制的材料很多,身份證明材料再加上開戶要填寫的表單,初步算來有12-13份,多達幾十頁。其次難在對表單內(nèi)容規(guī)范性、材料齊備性的要求很高。
辦理機構(gòu)開戶時,客戶經(jīng)辦人簽署與蓋章紙質(zhì)開戶協(xié)議后,開戶協(xié)助人需要將開戶協(xié)議拍照上傳至系統(tǒng)提交,便于后臺審核和留存。
在以前,面對繁多的材料和復(fù)雜的要求,開戶協(xié)助人往往需要多次拍照,必要時進行人工識別、手動分揀與匹配,將資料上傳至系統(tǒng)中。這一過程往往耗時久、效率低,并且對開戶協(xié)助人作業(yè)熟練度要求高。
但開戶協(xié)助人通常是券商非專職的柜臺人員,這類人員流動性比較大,很難得到長期培訓(xùn),反過來更加劇了操作難度。
自從引入了大模型驅(qū)動的OCR“智能分揀”后,拿到客戶提交的材料后,開戶協(xié)助人只需要把材料批量拍照,點擊上傳,系統(tǒng)會自動把材料分揀、匹配、上傳到指定位置。不僅大大縮短了開戶前端操作時間,提高了開戶效率,還降低了人工作業(yè)難度,員工體驗感也大大增強。
謝琪:華福證券目前已經(jīng)將騰訊云TI-OCR應(yīng)用到開戶領(lǐng)域、智能分揀領(lǐng)域,實際效果不錯,將會把TI-OCR作為OCR原子服務(wù)能力上架到公司AI中臺,賦能更多的業(yè)務(wù)應(yīng)用場景。
目前華福證券通過大模型技術(shù)在對內(nèi)賦能上已經(jīng)落地了數(shù)個場景,比如員工外腦、知識庫檢索、書寫輔助等場景。同時,我們也在探索“大模型+Agent”模式,這個方向行業(yè)也處于探索階段。我們AI研究側(cè)重應(yīng)用場景挖掘。我們內(nèi)部的要求是做AI不能脫離實際業(yè)務(wù)場景,重點是要通過AI實際幫助到業(yè)務(wù)或者幫助到員工。
華福證券的AI探索聚焦“提質(zhì)增效”和“降本增效”兩個目標?!疤豳|(zhì)增效”聚焦在AI對業(yè)態(tài)環(huán)境和商業(yè)模式的重構(gòu),挖掘業(yè)務(wù)新的競爭力?!敖当驹鲂А眲t是注重重新梳理現(xiàn)有公司工作流程和任務(wù),推動模型抽象和數(shù)據(jù)治理,通過AI輔助員工和客戶處理標準化工作,深入挖掘“降本增效”成效。
公司領(lǐng)導(dǎo)去年提出1335戰(zhàn)略實施路徑?!?335”的“5”是指五大賦能,數(shù)智賦能是五大賦能之一。同時,公司提出“數(shù)智引領(lǐng) 人才突圍”的數(shù)智化轉(zhuǎn)型戰(zhàn)略,把數(shù)智化作為一個極其重要的賦能手段。希望能通過數(shù)智化為客戶帶來更好的服務(wù)和體驗。
問題:大模型驅(qū)動的OCR和傳統(tǒng)OCR相比,主要區(qū)別是什么?
丁鵬:騰訊云此次與華福證券合作的TI-OCR方案,是多模態(tài)OCR大模型底座,再加上OCR產(chǎn)品訓(xùn)練平臺。就底層大模型能力來說,大模型驅(qū)動的OCR和傳統(tǒng)OCR相比,主要有兩大不同:
一是增效方面,針對傳統(tǒng)OCR難以解決的復(fù)雜問題,依托大模型可以有效提升準確率。
比如開戶資料中存在印章干擾、手寫識別等復(fù)雜場景,傳統(tǒng)OCR要先把整個識別拆成很多段,先檢測再識別再做結(jié)構(gòu)化,無法做到端到端對每個環(huán)節(jié)的理解。而引入大模型后,增加的端到端的理解能力可以有效避免多個階段錯誤的累計。
引入大模型能力后,TI-OCR支持通過自然語言交互直接理解輸入圖片生成結(jié)果,能夠精準識別票據(jù)中的手寫體、表格信息、跨頁信息并排除背景干擾。
二是降本方面,以往企業(yè)自己訓(xùn)練或委托廠家訓(xùn)練模型,周期較長,成本較高,引入大模型后會結(jié)合實用性降低模型對資源的消耗,并且依托TI-OCR平臺,企業(yè)也可以在內(nèi)部快速構(gòu)建各類個性化應(yīng)用。
比如,企業(yè)僅需向TI-OCR平臺輸入少量實體單據(jù)掃描數(shù)據(jù),經(jīng)過數(shù)小時訓(xùn)練就能獲得對回單、發(fā)票、申請書、提貨單、簽收單等多種功能表單的高準確度識別能力。
問題:騰訊云為什么選擇在OCR領(lǐng)域發(fā)力大模型應(yīng)用?在布局時,騰訊云重點考慮什么?
丁鵬:主要有四點考慮:
首先,出發(fā)點是真正去解決客戶業(yè)務(wù)問題,而不是為了做大模型而做大模型。
過去幾年,OCR領(lǐng)域里傳統(tǒng)的卡證票據(jù)版式都比較固定,文檔比較簡單,傳統(tǒng)OCR技術(shù)應(yīng)用后能看到運營效率的提升。但還有很多長尾場景,比如個性化文案、銀行各類票據(jù)、證券開戶場景、各類單據(jù)或者授權(quán)證書等,亟待OCR技術(shù)的穿透。在復(fù)雜長尾場景下,傳統(tǒng)OCR技術(shù)的識別準確率一直存在不少問題。這是騰訊選擇在OCR領(lǐng)域發(fā)力大模型應(yīng)用的重要原因。
事實上,除了OCR,目前在證券領(lǐng)域,騰訊云還做了投顧助手、輿情助手、法律法規(guī)問答助手等客戶反饋需求較多的產(chǎn)品。
其次,在實際落地過程中,充分考慮金融行業(yè)的業(yè)務(wù)復(fù)雜性,尤其是數(shù)據(jù)以及合規(guī)安全問題。比如在整個應(yīng)用架構(gòu)上,以及訓(xùn)練和文本審核環(huán)節(jié)都加裝RAG(檢索增強生成)技術(shù)來規(guī)避敏感問題。
再次,想要大模型真正可落地,就要追求性價比。所以騰訊云目前會針對訓(xùn)練推理技術(shù)、算力成本、GPU管理、GPU虛擬化等做專門優(yōu)化,確保能夠以相對合理的算力將大模型應(yīng)用真正落地。
相比之前傳統(tǒng)OCR模型參數(shù)量,大模型參數(shù)量確實有較大提升,但是實際落地過程中,騰訊將集團內(nèi)部幾大實驗室積累的模型訓(xùn)練和推理加速框架加到了整個應(yīng)用中,并對訓(xùn)練過程包括推理過程都做了進一步提效。
同時針對私有化部署場景,騰訊會對模型做一系列蒸餾、裁剪,讓整個模型在私有化里能以比較低的成本落地?,F(xiàn)在來說,實際業(yè)務(wù)當中推理成本和原來傳統(tǒng)的OCR相差不大,具備可落地性。
此外,為了解決大模型落地最后一公里問題,也需要加強與擁有深厚行業(yè)know-how的生態(tài)伙伴的合作,比如此次華福證券合作中,騰訊云就是聯(lián)合了在證券行業(yè)開戶和運營環(huán)節(jié)有深厚積累的思迪信息,真正為華福提供了端到端的方案,而不只是提供一個技術(shù)中間件。
問題:在應(yīng)用過程中,大模型方案是否會產(chǎn)生機器幻覺或者合規(guī)上的問題?有什么好的解決辦法?
丁鵬:幻覺和合規(guī)是大模型經(jīng)常碰到的問題,也是金融機構(gòu)特別關(guān)注的問題。
數(shù)據(jù)方面,目前的訓(xùn)練數(shù)據(jù)都是基于自制或公開收集的合理數(shù)據(jù),并且在訓(xùn)練前,我們就會對數(shù)據(jù)進行安全過濾。
算法和產(chǎn)業(yè)實際應(yīng)用上,為了解決大模型落地行業(yè)的多重挑戰(zhàn),騰訊云研發(fā)并推出檢索優(yōu)化引擎,基于向量數(shù)據(jù)庫、實時訪問數(shù)據(jù)服務(wù)等技術(shù)打造多層次算法框架。它依托行業(yè)知識分類提取,精準獲取專業(yè)知識,并利用大語言模型快速提供高質(zhì)量生成信息,有效降低大模型可能存在的幻覺和信息不可控問題。
最后,騰訊云本身在安全領(lǐng)域深耕多年,產(chǎn)品豐富。所以目前我們在大模型應(yīng)用的輸入端和輸出端都會接入文本、圖片、音視頻審核的模型,來進行安全過濾。
雷峰網(wǎng)從騰訊云處獲悉,早在2022年之前,騰訊云就已將多模態(tài)模型應(yīng)用于OCR平臺中,經(jīng)內(nèi)部業(yè)務(wù)驗證打磨后,做成輕量化產(chǎn)品對外輸出。2022年產(chǎn)品已在金融行業(yè)落地。2023年大模型興起后,騰訊云又對整個模型參數(shù)規(guī)模對外輸出能力做了進一步強化?!昂罄m(xù)OCR相關(guān)產(chǎn)品將會依托大模型進行持續(xù)升級?!倍※i補充道。雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。