0
本文作者: 陳伊莉 | 2018-05-09 15:09 |
正如公司的名字一樣,庖丁科技也是利用一把鋒利的刀——基于自然語言處理與計算機視覺,實現(xiàn)金融文檔結(jié)構(gòu)化,從而切入金融市場。
中科院計算所副研究員兼博導、庖丁科技首席科學家羅平對雷鋒網(wǎng)AI金融評論表示,作為一種應用科學,計算機在研究和應用階段的目標和工作方式存在差異?!跋噍^而言,實際應用可能會耗費更多的人力和工程量。若劃分個百分比,前期研究是20%,應用產(chǎn)品化是80%。”而他一貫秉持著從實際需求中挖掘研究內(nèi)容。
一方面是監(jiān)管機構(gòu)對金融文檔有著真實、準確、完整要求,另一方面則是金融從業(yè)者面臨著繁雜的文檔數(shù)據(jù)處理、審核等困境。針對于此,庖丁科技專注于核心技術(shù)金融文檔結(jié)構(gòu)化的研究與工程化。簡單而言,金融文檔結(jié)構(gòu)化就是提取出金融文檔中的核心信息,轉(zhuǎn)化為可供計算機搜索、比對、分析的結(jié)構(gòu)化數(shù)據(jù)。而關(guān)鍵信息一般藏在兩個地方:一是大量的表格,二是自然語言段落。
在去年7月雷鋒網(wǎng)承辦的第二屆CCF-GAIR全球人工智能與機器人峰會上,羅平曾為觀眾展示了庖丁科技早期的產(chǎn)品——AutoDoc,主要能夠復核金融文檔表格及語言中的數(shù)字勾稽關(guān)系。
如下圖所示,根據(jù)文檔中的表格數(shù)據(jù),機器可自動計算出“2016年主營收入較2015年下降的比例”應該為“12.43%”,但文字中的顯示為“11.29%”。
當時,羅平還表示,出于教育市場的目的,他們預先發(fā)布了一版免費的AutoDoc軟件,支持金融文檔中數(shù)據(jù)勾稽關(guān)系的復核和筆誤修改,復核重點是數(shù)字,后續(xù)將會增加自動撰寫、智能分析,并增添人名、事件表述等復核功能。一年后,庖丁迭代了企業(yè)版本,據(jù)稱目前已在券商內(nèi)部測試使用。而那些后續(xù)功能將只在企業(yè)版本中提供。
除了AutoDoc企業(yè)版本的進展,他們還推出了一個新產(chǎn)品——PDFlux,將PDF電子文檔轉(zhuǎn)換成Excel表格。其中最關(guān)鍵的實現(xiàn)了無邊框表格提取。據(jù)羅平介紹,企業(yè)財報中有一些出于美觀考慮的無線框表格的存在,而一般使用pdf轉(zhuǎn)化器后,表格數(shù)據(jù)會被打亂。通過預測表格的外框和內(nèi)線,他們最終實現(xiàn)了數(shù)據(jù)提取。
北京銀行年報無邊框表格提取,210頁大約用時7~8分鐘
獲得數(shù)據(jù)后即可直接拷貝到Excel或者word中使用。這項技術(shù)和產(chǎn)品的價值在哪兒呢?羅平表示,國內(nèi)一些金融數(shù)據(jù)公司實質(zhì)上就是賣數(shù)據(jù)的公司,從上深交所發(fā)布的報告中扒下數(shù)據(jù),通過半自動化加人工的方式,提取報表數(shù)據(jù)。“可能需要好幾百人,而錄入一期財務報表至少需要3~5小時,而我們只需要幾分鐘。”
PDFlux也發(fā)布了一個免費版本,當前還未對速度進行優(yōu)化。經(jīng)雷鋒網(wǎng)AI金融評論嘗試,北京銀行210頁年報大約處理用時7~8分鐘,杭州銀行15頁的2018一季度報只用了3分鐘。
當然該產(chǎn)品并不包含圖表的識別。羅平解釋說,這是因為相較于表格,圖表的的應用價值并不高?!霸谄髽I(yè)發(fā)布的業(yè)績報告中,所有的關(guān)鍵信息都在表格中;而圖表可能只有5%及以下,且理解難度也很高,從投入產(chǎn)出來看并不值當?!?/p>
據(jù)稱,基于金融文檔結(jié)構(gòu)化技術(shù),庖丁能夠推出更多豐富的應用,比如合規(guī)、風控,甚至自動撰寫?!疤孤收f,我們前期的主要工作都放在突破底層關(guān)鍵技術(shù),建立技術(shù)壁壘;有了核心技術(shù),我們會將精力轉(zhuǎn)移到商業(yè)化產(chǎn)品端。 “
雷鋒網(wǎng)AI金融評論還就公司與行業(yè)發(fā)展與羅平展開了更深入的對話:
雷鋒網(wǎng)AI金融評論:庖丁的自我定位究竟是怎樣的?曾有一家媒體將庖丁公司歸類到智能投研,而在此之前也看到CEO接受采訪時表示,庖丁對標美國大數(shù)據(jù)公司Palantir,也說“AI公司未來會是新的金融機構(gòu),未來庖丁科技要成為新的資產(chǎn)管理機構(gòu)?!?/strong>
羅平:我們是一家金融科技公司,智能投研只是該領(lǐng)域的一部分。另外,我們認為通過技術(shù)未來可以自然地轉(zhuǎn)型成一個新型金融機構(gòu)。換個角度,AutoDoc的目標是減少投行重復的投入,可能現(xiàn)在投行100個人,利用我們的工具后只需要10個人,也就是說相當于這個工具占到90%的工作量。那么從技術(shù)角度切入,未來延伸至業(yè)務層面,順理成章。當然,還需要考慮到監(jiān)管因素。
雷鋒網(wǎng)AI金融評論:目前庖丁科技發(fā)布的產(chǎn)品實際為投研人員提供了便利。國內(nèi)一些開發(fā)投研工具的公司已經(jīng)不少,有推出企業(yè)知識圖譜、金融搜索引擎等工具,相較起來庖丁科技的切入點更小更聚焦。
羅平:我明白你的意思,市場存在這樣認知的從業(yè)者不在少數(shù)。但我想說的是,我們所做的金融文檔結(jié)構(gòu)化底層技術(shù)實際上都可以實現(xiàn)這些功能。這些工具說起來還是解決工程化的問題,并沒有什么技術(shù)難度。
我們能夠看到一些企業(yè)知識圖譜展示,比如列出一家公司的前十大用戶或者供應商名單。而事實上,后臺數(shù)據(jù)庫已經(jīng)存儲好了這些信息,相當于只是做了數(shù)據(jù)庫查詢,并把查詢的內(nèi)容可視化。
核心的技術(shù)門檻應該在如何實時的構(gòu)建這樣的數(shù)據(jù)庫。也就是說,怎么知道這家公司的上下游公司在哪里?這些信息實際上都存在于披露的金融文檔中,我們需要實時的抽取出來。這就需要自動化的表格理解和自然語言理解技術(shù)。
雷鋒網(wǎng)AI金融評論:在沒有自動化處理能力或者不成熟之前,同類公司如何為投資者提供足夠多的數(shù)據(jù)?人工?
羅平:這就千差萬別了。第一類是半自動化+人工實現(xiàn)的,比如萬得。第二類則是通過不正當?shù)氖侄沃苯荧@取結(jié)構(gòu)化數(shù)據(jù)。
雷鋒網(wǎng)AI金融評論:公司的商業(yè)化進展如何?在B端部署時數(shù)據(jù)如何處理?
羅平:除了C端試用產(chǎn)品,主要目標對象是國內(nèi)券商等金融機構(gòu)和監(jiān)管單位。收費模式包括按次收費或者按軟件收費。我們會到相關(guān)機構(gòu)部署系統(tǒng),數(shù)據(jù)也會存儲在他們內(nèi)部。
雷鋒網(wǎng)AI金融評論:AutoDoc企業(yè)版本中有自動撰寫功能,該工作的難點是什么?在此之前,我們確實有看到一些機器人自動撰寫的簡短的新聞。
羅平:大家不要對能夠幫助投行從業(yè)者自動撰寫的功能抱有太高的期望。比如一個IPO的招股書,我覺得自動撰寫的比例會在50%以下,甚至更低。
我們首先需要明確撰寫的內(nèi)容,目前能夠?qū)崿F(xiàn)的是根據(jù)一張財務報表的數(shù)字進行自然語言描述,比如今年的指標,同比增長等,或者說可以叫做輔助撰寫。
但如果出現(xiàn)一個異常增長率,一般監(jiān)管都需要其作出解釋。那么這個原因,不論是開拓的新業(yè)務或者是政策變化,機器是無法自動生成原因的,仍然需要人工撰寫。
雷鋒網(wǎng)AI金融評論:“庖丁科技未來的應用場景包括監(jiān)管合規(guī),目前的使用者上傳了數(shù)萬份金融市場信息報表。”怎么理解你們的作用,有什么實際應用嗎?
羅平:監(jiān)管有個最基本的需求就是復核年報或者IPO招股書的數(shù)據(jù)。另外,他們還希望對金融市場做到風控管理,也需要公司的底層財務和業(yè)務數(shù)據(jù)。金融文檔結(jié)構(gòu)化是一切后續(xù)應用的基礎(chǔ)。實際上,我們已經(jīng)與某發(fā)債監(jiān)管單位簽訂了系統(tǒng)合約。
雷鋒網(wǎng)AI金融評論:那么行業(yè)的競爭壁壘是在哪里?之前看到你接受采訪時談到在于“技術(shù)+金融數(shù)據(jù)理解?!?/strong>
羅平:我覺得真正壁壘是如何獲取金融數(shù)據(jù),這是計算機的壁壘,是我們主要做的事情。獲取的速度和精度,將體現(xiàn)出迥然不同的應用價值。
有了底層的金融數(shù)據(jù),需要將金融以及行業(yè)知識融入計算機技術(shù),這才是金融從業(yè)者發(fā)揮價值的廣闊舞臺。我們的策略是,先做計算機的事情;做好之后,金融的事情應該是一片藍海。
雷鋒網(wǎng)AI金融評論:近年來我們能看到許多新金融業(yè)態(tài)監(jiān)管收嚴,比如智能投顧、網(wǎng)貸等,但你們所在的細分領(lǐng)域似乎并沒有太多的監(jiān)管壓力。
羅平:我們所在的市場比較開放、健康。做監(jiān)管科技,是為了穩(wěn)定、管理金融市場。我覺得這塊市場類似于傳統(tǒng)的安防行業(yè),用AI技術(shù)穩(wěn)定金融市場,或者可以叫“金融安防市場?!?/span>
雷鋒網(wǎng)AI金融評論:關(guān)于行業(yè)現(xiàn)狀,你有感而發(fā)一句“魚龍混雜”,這主要指什么問題?
羅平:魚龍混雜主要指的是各公司的技術(shù)水平,含金量在于底下的數(shù)據(jù)來源,有些公司甚至會竊取他人數(shù)據(jù)。底層數(shù)據(jù)的來源也決定了是否能夠真正構(gòu)建“知識圖譜”,一些所謂的AI公司充其量只是做了數(shù)據(jù)“展示”而已。
相關(guān)文章:
中科院羅平演講全文:自動撰寫金融文檔如何實現(xiàn),用 AI 解救“金融民工” | CCF-GAIR 2017
中科院羅平:人工智能在智能投行中的應用 | CCF-GAIR 2017
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。