丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
金融科技 正文
發(fā)私信給陳伊莉
發(fā)送

0

從微信AI首席顧問到金融文檔智能,一位中科院計算機科學(xué)家AI產(chǎn)品化實踐

本文作者: 陳伊莉 2017-08-14 10:18
導(dǎo)語:“我的研究思路是扎根某一領(lǐng)域,如金融,并探索一些實際問題,再從實際問題出發(fā)抽象出研究點。實際問題可能只是一個‘點’,抽象出來后形成多個不同的點?!绷_平教授表示。

從微信AI首席顧問到金融文檔智能,一位中科院計算機科學(xué)家AI產(chǎn)品化實踐

技術(shù)在誕生、研發(fā)到應(yīng)用各階段目標(biāo)和工作方式有所不同。在中科院計算所副研究員、博導(dǎo)羅平教授看來,學(xué)術(shù)研究是在茫茫林海中有目的地尋找,有時候一無所獲,有時候能在千萬次試錯后發(fā)現(xiàn)一整片綠洲。但也僅止步于此,如何挖掘風(fēng)景的商業(yè)價值和掩藏的寶藏則由產(chǎn)業(yè)界接手。相較而言,實際應(yīng)用可能會耗費更多的人力和工程量。“若劃分個百分比,前期研究是20%,應(yīng)用是80%?!?/p>

羅平教授的主要研究領(lǐng)域是機器學(xué)習(xí)與數(shù)據(jù)挖掘,以及大數(shù)據(jù)下的實際新型應(yīng)用。除了這重學(xué)術(shù)身份外,他還曾就職于惠普研究院研究員,現(xiàn)在是微信人工智能首席科學(xué)顧問。 此外,在近期由中國計算機學(xué)會(CCF)主辦,雷鋒網(wǎng)和香港中文大學(xué)(深圳)承辦的第二屆CCF-GAIR全球人工智能與機器人峰會上,羅平教授為觀眾分享了一項他目前的研究項目——庖丁解文,即用AI來撰寫和復(fù)核投行金融文檔,已經(jīng)對外開放使用。

他對雷鋒網(wǎng)表示,

“我的研究思路是扎根某一領(lǐng)域,比如金融,并探索一些實際問題,再從實際問題出發(fā)抽象出研究點。實際問題可能只是一個‘點’,抽象出來后形成多個不同的點?!?/p>

羅平教授舉了一個實例,在 Data Mining 領(lǐng)域有一個問題叫 Lock Step Behavior Mining,就是“挖掘同步行為”。之前他們與上交所的一個合作項目,就是通過所有用戶交易數(shù)據(jù)來監(jiān)控一種典型的市場違規(guī)行為——老鼠倉。具體指莊家在用公有資金拉升股價之前,先用自己個人(機構(gòu)負(fù)責(zé)人,操盤手及其親屬,關(guān)系戶)的資金在低位建倉,待用公有資金拉升到高位后個人倉位率先賣出獲利。

“如果兩個賬戶中,一個大的基金賬戶和小散戶經(jīng)常在相近時間買賣同一只股票,那么就是一種異常信號。這是可以通過大數(shù)據(jù)挖掘出來的。然后,我們開始思考能否將這研究拓展到其他場景。后來我們發(fā)現(xiàn)這可以應(yīng)用到,比如清理社交平臺上的僵尸粉,或者識別豆瓣電影的水軍。因為僵尸粉和水軍之間存在大量的同步行為”

掘金產(chǎn)業(yè)界

基于這樣的研究思路,羅平教授開始關(guān)注產(chǎn)業(yè)界的應(yīng)用。他正在挖掘的“金礦”有二,一是庖丁解文,二是 Chatbot 平臺。

庖丁解文——自動結(jié)構(gòu)化金融文檔

金融場景中存在大量的非結(jié)構(gòu)化文本數(shù)據(jù),大多數(shù)金融從業(yè)者都是在做繁重重復(fù)且低技術(shù)含量的文檔撰寫和核查工作,而且目前很多是純手工作業(yè),難免出現(xiàn)低級錯誤。這些錯誤將可能帶來很高的風(fēng)險,導(dǎo)致金融機構(gòu)面臨聲譽和經(jīng)濟損失,甚至承擔(dān)訴訟的連帶責(zé)任。例如高盛曾于2011年因為四只認(rèn)股權(quán)證定價算式出錯,從而賠償4500萬美元;去年,郵儲銀行公告出現(xiàn)烏龍,稱郵政銀行負(fù)債8億億等。

針對這些痛點,羅平教授團(tuán)隊希望用技術(shù)和機器來幫助他們。

“我們現(xiàn)在所做的事是,對金融文檔進(jìn)行自動結(jié)構(gòu)化,干凈利落得獲得金融文檔中的語義信息。古有庖丁解牛,我們這是庖丁解文?!?/p>

產(chǎn)品名為AutoDoc,現(xiàn)在支持金融文檔中數(shù)據(jù)勾稽關(guān)系的復(fù)核和筆誤修改,后續(xù)會逐步增加自動撰寫、智能分析功能。

羅平教授簡單地描述了一番應(yīng)用流程,“使用起來很簡單,用戶只需上傳需要復(fù)核的金融文檔,經(jīng)過自動解析和比對,機器會自動標(biāo)注出數(shù)據(jù)不一致的地方。”

從微信AI首席顧問到金融文檔智能,一位中科院計算機科學(xué)家AI產(chǎn)品化實踐

如上圖所示,根據(jù)文檔中的表格數(shù)據(jù),機器可自動計算出“2016年主營收入較2015年下降的比例”應(yīng)該為“12.43%”,但文字中的顯示為“11.29%”。

“其實,投行和律所的工作人員長時間的都在干這些數(shù)字復(fù)核的事情。然而,這些文檔通常都是好幾百頁,復(fù)核的過程很“反人性”。現(xiàn)在,這些工作都可以交給AI自動完成了?!?/p>

那么背后的核心技術(shù)是什么?羅平教授告訴雷鋒網(wǎng),復(fù)核就是復(fù)核文章各種數(shù)字之間的勾稽關(guān)系。背后涉及到從非結(jié)構(gòu)化的文檔中自動提取出對應(yīng)語義的元組和公式。

從微信AI首席顧問到金融文檔智能,一位中科院計算機科學(xué)家AI產(chǎn)品化實踐

據(jù)介紹,他們研發(fā)的深度結(jié)構(gòu)化技術(shù)包含兩個層面:

  • 第一個層面是 Text2Tuple,從文本到元組。元組是時間、財務(wù)指標(biāo)、值的三元組,比如說:2013、2014、2015年第一大客戶的營業(yè)額分別是多少錢,需要提取出來。

  • 第二個層面是 Text2Equ。他們需要把文本中的比例數(shù)字,如60%、58%、55%,解釋為語義相同的計算公式;同時文中還提到“呈現(xiàn)逐漸下降的趨勢”,所以也要提取出這個不等式的關(guān)系。

“我們研發(fā)的模型,輸入非結(jié)構(gòu)化或半結(jié)構(gòu)化的文本,可輸出可供計算機搜索、比對、分析的結(jié)構(gòu)化的數(shù)據(jù)。這其實是自動構(gòu)建知識圖譜的核心技術(shù)。有了知識圖譜,后續(xù)可以支撐很多應(yīng)用。”

從微信AI首席顧問到金融文檔智能,一位中科院計算機科學(xué)家AI產(chǎn)品化實踐

不過由于產(chǎn)品還處于早期階段,為了方便用戶使用,目前復(fù)核重點是數(shù)字,后期有關(guān)人名、事件表述也會增加;對于數(shù)據(jù)勾稽關(guān)系的確認(rèn)還未涉及外部公開數(shù)據(jù),僅是check上傳文檔的數(shù)字一致性。

雖然AutoDoc功能簡單,但是表現(xiàn)不俗。據(jù)了解,他們對1000對個公開的債券募集說明書進(jìn)行測試,發(fā)現(xiàn)有68.92%的文檔存在數(shù)據(jù)不一致錯誤,每篇出錯文檔平均包含4.26個錯誤。后來在4月份將該功能發(fā)布在微信公眾號 “債有主”上。截至七月,用戶上傳近1000份文檔,其中98.4%的文檔存在錯誤,每篇出錯文檔平均有6.5個錯誤。

"從非結(jié)構(gòu)文檔提出結(jié)構(gòu)化的準(zhǔn)確率,已過95%。"羅平教授說。

Chatbot——信息知識獲取平臺

羅平教授在微信的研究工作圍繞自然語言處理微信公眾號及展開。目前,公眾號已成為人們獲取信息和知識的一個重要平臺。面對這些海量的非結(jié)構(gòu)化文章和數(shù)據(jù),他們思考如何提供是幫助用戶搜索找到更精準(zhǔn)的問題答案。

“現(xiàn)在的搜索只能給出一些大致的答案,我們希望對公眾號文章做深入語義獲取。這樣,用戶在微信中搜索一個具體問題時,比如如何修輪胎、做飯等,會呈現(xiàn)出圖文并茂的指導(dǎo)?!?/p>

從微信AI首席顧問到金融文檔智能,一位中科院計算機科學(xué)家AI產(chǎn)品化實踐

在今年6月CCF舉辦的學(xué)術(shù)報告會上,他將信息和知識獲取平臺劃分為三種類型——“搜索引擎”、“問答系統(tǒng)”和“Bot平臺”。這些平臺,在交互方式、處理數(shù)據(jù)方式、數(shù)據(jù)擁有者在系統(tǒng)內(nèi)的角色三方面都存在不同。前兩類采用統(tǒng)一入口,索引關(guān)鍵詞或完整問題,數(shù)據(jù)/知識擁有者參與程度不高;而Bot平臺采用單獨入口和自然語言交互技術(shù),融合領(lǐng)域數(shù)據(jù)和模型,并不斷迭代,數(shù)據(jù)擁有者納入商業(yè)體系,有較強的精耕細(xì)作動力,能生產(chǎn)出高價值內(nèi)容。

“就現(xiàn)階段而言,精準(zhǔn)搜索還未實現(xiàn),我們還在持續(xù)研究中?!?/p>

“征信領(lǐng)域,數(shù)據(jù)為王”

隨著AI技術(shù)的大熱,一大批創(chuàng)業(yè)公司如雨后春筍般冒出來,如何在同質(zhì)化競爭中占據(jù)高地?作為一位有著技術(shù)產(chǎn)品化實踐的計算機學(xué)家,羅平教授表示,技術(shù)可能并非護(hù)城河,競爭的真正壁壘在于數(shù)據(jù)、用戶、場景和先發(fā)優(yōu)勢。

“可能是因為我對于技術(shù)非常熟悉,從我的角度而言,一個公司的成功不是靠一項獨一無二的技術(shù),技術(shù)門檻并非那么高不可攀?!?/p>

此外,關(guān)于金融領(lǐng)域弱特征大數(shù)據(jù),強特征小數(shù)據(jù)之爭常有見報。對此,羅平教授認(rèn)為,在征信場景中,由于強特征人群覆蓋不全,面對日益旺盛的信貸需求,大數(shù)據(jù)自然有其用武之地。

“特別在征信領(lǐng)域,數(shù)據(jù)為王,算法靠后?!?/p>

同時他也指出,人群特征有一個關(guān)鍵概念——關(guān)聯(lián),關(guān)聯(lián)是指很多事情偶然地同時出現(xiàn),但開發(fā)者可能將它們也作為“有錢人”的特征挖掘出來,從而很可能導(dǎo)致風(fēng)險發(fā)生。關(guān)聯(lián)性并不等于因果關(guān)系,有因果關(guān)系的大數(shù)據(jù)才能真正起到作用?!?span style="line-height: 1.8;">正如一些真正賺錢的基金經(jīng)理,在對金融市場的認(rèn)知基礎(chǔ)上,他們構(gòu)建出一套可能只有一兩個特征的邏輯,并能基于這些簡單的邏輯悶聲發(fā)大財?!?/span>

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章

編輯

數(shù)據(jù)漫游天地間。 聯(lián)系可通過上方郵箱或WeChat(請注明身份、姓名、來意,thx)
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說