丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
金融科技 正文
發(fā)私信給陳伊莉
發(fā)送

0

從微信AI首席顧問(wèn)到金融文檔智能,一位中科院計(jì)算機(jī)科學(xué)家AI產(chǎn)品化實(shí)踐

本文作者: 陳伊莉 2017-08-14 10:18
導(dǎo)語(yǔ):“我的研究思路是扎根某一領(lǐng)域,如金融,并探索一些實(shí)際問(wèn)題,再?gòu)膶?shí)際問(wèn)題出發(fā)抽象出研究點(diǎn)。實(shí)際問(wèn)題可能只是一個(gè)‘點(diǎn)’,抽象出來(lái)后形成多個(gè)不同的點(diǎn)。”羅平教授表示。

從微信AI首席顧問(wèn)到金融文檔智能,一位中科院計(jì)算機(jī)科學(xué)家AI產(chǎn)品化實(shí)踐

技術(shù)在誕生、研發(fā)到應(yīng)用各階段目標(biāo)和工作方式有所不同。在中科院計(jì)算所副研究員、博導(dǎo)羅平教授看來(lái),學(xué)術(shù)研究是在茫茫林海中有目的地尋找,有時(shí)候一無(wú)所獲,有時(shí)候能在千萬(wàn)次試錯(cuò)后發(fā)現(xiàn)一整片綠洲。但也僅止步于此,如何挖掘風(fēng)景的商業(yè)價(jià)值和掩藏的寶藏則由產(chǎn)業(yè)界接手。相較而言,實(shí)際應(yīng)用可能會(huì)耗費(fèi)更多的人力和工程量?!叭魟澐謧€(gè)百分比,前期研究是20%,應(yīng)用是80%?!?/p>

羅平教授的主要研究領(lǐng)域是機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘,以及大數(shù)據(jù)下的實(shí)際新型應(yīng)用。除了這重學(xué)術(shù)身份外,他還曾就職于惠普研究院研究員,現(xiàn)在是微信人工智能首席科學(xué)顧問(wèn)。 此外,在近期由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,雷鋒網(wǎng)和香港中文大學(xué)(深圳)承辦的第二屆CCF-GAIR全球人工智能與機(jī)器人峰會(huì)上,羅平教授為觀眾分享了一項(xiàng)他目前的研究項(xiàng)目——庖丁解文,即用AI來(lái)撰寫和復(fù)核投行金融文檔,已經(jīng)對(duì)外開放使用。

他對(duì)雷鋒網(wǎng)表示,

“我的研究思路是扎根某一領(lǐng)域,比如金融,并探索一些實(shí)際問(wèn)題,再?gòu)膶?shí)際問(wèn)題出發(fā)抽象出研究點(diǎn)。實(shí)際問(wèn)題可能只是一個(gè)‘點(diǎn)’,抽象出來(lái)后形成多個(gè)不同的點(diǎn)。”

羅平教授舉了一個(gè)實(shí)例,在 Data Mining 領(lǐng)域有一個(gè)問(wèn)題叫 Lock Step Behavior Mining,就是“挖掘同步行為”。之前他們與上交所的一個(gè)合作項(xiàng)目,就是通過(guò)所有用戶交易數(shù)據(jù)來(lái)監(jiān)控一種典型的市場(chǎng)違規(guī)行為——老鼠倉(cāng)。具體指莊家在用公有資金拉升股價(jià)之前,先用自己個(gè)人(機(jī)構(gòu)負(fù)責(zé)人,操盤手及其親屬,關(guān)系戶)的資金在低位建倉(cāng),待用公有資金拉升到高位后個(gè)人倉(cāng)位率先賣出獲利。

“如果兩個(gè)賬戶中,一個(gè)大的基金賬戶和小散戶經(jīng)常在相近時(shí)間買賣同一只股票,那么就是一種異常信號(hào)。這是可以通過(guò)大數(shù)據(jù)挖掘出來(lái)的。然后,我們開始思考能否將這研究拓展到其他場(chǎng)景。后來(lái)我們發(fā)現(xiàn)這可以應(yīng)用到,比如清理社交平臺(tái)上的僵尸粉,或者識(shí)別豆瓣電影的水軍。因?yàn)榻┦酆退娭g存在大量的同步行為”

掘金產(chǎn)業(yè)界

基于這樣的研究思路,羅平教授開始關(guān)注產(chǎn)業(yè)界的應(yīng)用。他正在挖掘的“金礦”有二,一是庖丁解文,二是 Chatbot 平臺(tái)。

庖丁解文——自動(dòng)結(jié)構(gòu)化金融文檔

金融場(chǎng)景中存在大量的非結(jié)構(gòu)化文本數(shù)據(jù),大多數(shù)金融從業(yè)者都是在做繁重重復(fù)且低技術(shù)含量的文檔撰寫和核查工作,而且目前很多是純手工作業(yè),難免出現(xiàn)低級(jí)錯(cuò)誤。這些錯(cuò)誤將可能帶來(lái)很高的風(fēng)險(xiǎn),導(dǎo)致金融機(jī)構(gòu)面臨聲譽(yù)和經(jīng)濟(jì)損失,甚至承擔(dān)訴訟的連帶責(zé)任。例如高盛曾于2011年因?yàn)樗闹徽J(rèn)股權(quán)證定價(jià)算式出錯(cuò),從而賠償4500萬(wàn)美元;去年,郵儲(chǔ)銀行公告出現(xiàn)烏龍,稱郵政銀行負(fù)債8億億等。

針對(duì)這些痛點(diǎn),羅平教授團(tuán)隊(duì)希望用技術(shù)和機(jī)器來(lái)幫助他們。

“我們現(xiàn)在所做的事是,對(duì)金融文檔進(jìn)行自動(dòng)結(jié)構(gòu)化,干凈利落得獲得金融文檔中的語(yǔ)義信息。古有庖丁解牛,我們這是庖丁解文。”

產(chǎn)品名為AutoDoc,現(xiàn)在支持金融文檔中數(shù)據(jù)勾稽關(guān)系的復(fù)核和筆誤修改,后續(xù)會(huì)逐步增加自動(dòng)撰寫、智能分析功能。

羅平教授簡(jiǎn)單地描述了一番應(yīng)用流程,“使用起來(lái)很簡(jiǎn)單,用戶只需上傳需要復(fù)核的金融文檔,經(jīng)過(guò)自動(dòng)解析和比對(duì),機(jī)器會(huì)自動(dòng)標(biāo)注出數(shù)據(jù)不一致的地方?!?/p>

從微信AI首席顧問(wèn)到金融文檔智能,一位中科院計(jì)算機(jī)科學(xué)家AI產(chǎn)品化實(shí)踐

如上圖所示,根據(jù)文檔中的表格數(shù)據(jù),機(jī)器可自動(dòng)計(jì)算出“2016年主營(yíng)收入較2015年下降的比例”應(yīng)該為“12.43%”,但文字中的顯示為“11.29%”。

“其實(shí),投行和律所的工作人員長(zhǎng)時(shí)間的都在干這些數(shù)字復(fù)核的事情。然而,這些文檔通常都是好幾百頁(yè),復(fù)核的過(guò)程很“反人性”?,F(xiàn)在,這些工作都可以交給AI自動(dòng)完成了?!?/p>

那么背后的核心技術(shù)是什么?羅平教授告訴雷鋒網(wǎng),復(fù)核就是復(fù)核文章各種數(shù)字之間的勾稽關(guān)系。背后涉及到從非結(jié)構(gòu)化的文檔中自動(dòng)提取出對(duì)應(yīng)語(yǔ)義的元組和公式。

從微信AI首席顧問(wèn)到金融文檔智能,一位中科院計(jì)算機(jī)科學(xué)家AI產(chǎn)品化實(shí)踐

據(jù)介紹,他們研發(fā)的深度結(jié)構(gòu)化技術(shù)包含兩個(gè)層面:

  • 第一個(gè)層面是 Text2Tuple,從文本到元組。元組是時(shí)間、財(cái)務(wù)指標(biāo)、值的三元組,比如說(shuō):2013、2014、2015年第一大客戶的營(yíng)業(yè)額分別是多少錢,需要提取出來(lái)。

  • 第二個(gè)層面是 Text2Equ。他們需要把文本中的比例數(shù)字,如60%、58%、55%,解釋為語(yǔ)義相同的計(jì)算公式;同時(shí)文中還提到“呈現(xiàn)逐漸下降的趨勢(shì)”,所以也要提取出這個(gè)不等式的關(guān)系。

“我們研發(fā)的模型,輸入非結(jié)構(gòu)化或半結(jié)構(gòu)化的文本,可輸出可供計(jì)算機(jī)搜索、比對(duì)、分析的結(jié)構(gòu)化的數(shù)據(jù)。這其實(shí)是自動(dòng)構(gòu)建知識(shí)圖譜的核心技術(shù)。有了知識(shí)圖譜,后續(xù)可以支撐很多應(yīng)用?!?/p>

從微信AI首席顧問(wèn)到金融文檔智能,一位中科院計(jì)算機(jī)科學(xué)家AI產(chǎn)品化實(shí)踐

不過(guò)由于產(chǎn)品還處于早期階段,為了方便用戶使用,目前復(fù)核重點(diǎn)是數(shù)字,后期有關(guān)人名、事件表述也會(huì)增加;對(duì)于數(shù)據(jù)勾稽關(guān)系的確認(rèn)還未涉及外部公開數(shù)據(jù),僅是check上傳文檔的數(shù)字一致性。

雖然AutoDoc功能簡(jiǎn)單,但是表現(xiàn)不俗。據(jù)了解,他們對(duì)1000對(duì)個(gè)公開的債券募集說(shuō)明書進(jìn)行測(cè)試,發(fā)現(xiàn)有68.92%的文檔存在數(shù)據(jù)不一致錯(cuò)誤,每篇出錯(cuò)文檔平均包含4.26個(gè)錯(cuò)誤。后來(lái)在4月份將該功能發(fā)布在微信公眾號(hào) “債有主”上。截至七月,用戶上傳近1000份文檔,其中98.4%的文檔存在錯(cuò)誤,每篇出錯(cuò)文檔平均有6.5個(gè)錯(cuò)誤。

"從非結(jié)構(gòu)文檔提出結(jié)構(gòu)化的準(zhǔn)確率,已過(guò)95%。"羅平教授說(shuō)。

Chatbot——信息知識(shí)獲取平臺(tái)

羅平教授在微信的研究工作圍繞自然語(yǔ)言處理微信公眾號(hào)及展開。目前,公眾號(hào)已成為人們獲取信息和知識(shí)的一個(gè)重要平臺(tái)。面對(duì)這些海量的非結(jié)構(gòu)化文章和數(shù)據(jù),他們思考如何提供是幫助用戶搜索找到更精準(zhǔn)的問(wèn)題答案。

“現(xiàn)在的搜索只能給出一些大致的答案,我們希望對(duì)公眾號(hào)文章做深入語(yǔ)義獲取。這樣,用戶在微信中搜索一個(gè)具體問(wèn)題時(shí),比如如何修輪胎、做飯等,會(huì)呈現(xiàn)出圖文并茂的指導(dǎo)?!?/p>

從微信AI首席顧問(wèn)到金融文檔智能,一位中科院計(jì)算機(jī)科學(xué)家AI產(chǎn)品化實(shí)踐

在今年6月CCF舉辦的學(xué)術(shù)報(bào)告會(huì)上,他將信息和知識(shí)獲取平臺(tái)劃分為三種類型——“搜索引擎”、“問(wèn)答系統(tǒng)”和“Bot平臺(tái)”。這些平臺(tái),在交互方式、處理數(shù)據(jù)方式、數(shù)據(jù)擁有者在系統(tǒng)內(nèi)的角色三方面都存在不同。前兩類采用統(tǒng)一入口,索引關(guān)鍵詞或完整問(wèn)題,數(shù)據(jù)/知識(shí)擁有者參與程度不高;而Bot平臺(tái)采用單獨(dú)入口和自然語(yǔ)言交互技術(shù),融合領(lǐng)域數(shù)據(jù)和模型,并不斷迭代,數(shù)據(jù)擁有者納入商業(yè)體系,有較強(qiáng)的精耕細(xì)作動(dòng)力,能生產(chǎn)出高價(jià)值內(nèi)容。

“就現(xiàn)階段而言,精準(zhǔn)搜索還未實(shí)現(xiàn),我們還在持續(xù)研究中?!?/p>

“征信領(lǐng)域,數(shù)據(jù)為王”

隨著AI技術(shù)的大熱,一大批創(chuàng)業(yè)公司如雨后春筍般冒出來(lái),如何在同質(zhì)化競(jìng)爭(zhēng)中占據(jù)高地?作為一位有著技術(shù)產(chǎn)品化實(shí)踐的計(jì)算機(jī)學(xué)家,羅平教授表示,技術(shù)可能并非護(hù)城河,競(jìng)爭(zhēng)的真正壁壘在于數(shù)據(jù)、用戶、場(chǎng)景和先發(fā)優(yōu)勢(shì)。

“可能是因?yàn)槲覍?duì)于技術(shù)非常熟悉,從我的角度而言,一個(gè)公司的成功不是靠一項(xiàng)獨(dú)一無(wú)二的技術(shù),技術(shù)門檻并非那么高不可攀。”

此外,關(guān)于金融領(lǐng)域弱特征大數(shù)據(jù),強(qiáng)特征小數(shù)據(jù)之爭(zhēng)常有見(jiàn)報(bào)。對(duì)此,羅平教授認(rèn)為,在征信場(chǎng)景中,由于強(qiáng)特征人群覆蓋不全,面對(duì)日益旺盛的信貸需求,大數(shù)據(jù)自然有其用武之地。

“特別在征信領(lǐng)域,數(shù)據(jù)為王,算法靠后?!?/p>

同時(shí)他也指出,人群特征有一個(gè)關(guān)鍵概念——關(guān)聯(lián),關(guān)聯(lián)是指很多事情偶然地同時(shí)出現(xiàn),但開發(fā)者可能將它們也作為“有錢人”的特征挖掘出來(lái),從而很可能導(dǎo)致風(fēng)險(xiǎn)發(fā)生。關(guān)聯(lián)性并不等于因果關(guān)系,有因果關(guān)系的大數(shù)據(jù)才能真正起到作用。“正如一些真正賺錢的基金經(jīng)理,在對(duì)金融市場(chǎng)的認(rèn)知基礎(chǔ)上,他們構(gòu)建出一套可能只有一兩個(gè)特征的邏輯,并能基于這些簡(jiǎn)單的邏輯悶聲發(fā)大財(cái)。”

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

數(shù)據(jù)漫游天地間。 聯(lián)系可通過(guò)上方郵箱或WeChat(請(qǐng)注明身份、姓名、來(lái)意,thx)
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)