0
本文作者: 周蕾 | 2020-06-02 19:58 |
近日,文因互聯(lián)創(chuàng)始人、CEO 鮑捷博士在雷鋒網(wǎng)公開課上,以「RPA如何從1.0走到4.0時代」為題講述了流程自動化的前世今生。
RPA從1.0到4.0,是對手、眼、腦和心的自動化,實現(xiàn)對數(shù)據(jù)搬移、識別、機器自動化管理和信任的建立,逐步替代初級和中級工作人員;與此同時,是幫助組織從提高現(xiàn)有業(yè)務(wù)的效率到創(chuàng)造新業(yè)務(wù)、實現(xiàn)開放生態(tài)互聯(lián)的過程。
關(guān)注公眾號「AI金融評論」后臺回復(fù)關(guān)鍵詞“聽課”,收看本節(jié)課程視頻回放。
以下為鮑捷的分享內(nèi)容節(jié)選,雷鋒網(wǎng)做了不改變原意的刪減:
一開始我起的題目叫「白領(lǐng)工人保命指南」,意思是怎么用知識工程(知識工程是人工智能大分支之一,另外兩個大分支是機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)。)這種技術(shù),來幫助白領(lǐng)工人實現(xiàn)自動化工作——某種程度上也是“替代”他的工作。
過去這二十年時間里,我一直都在從事這種“邪惡”的研究——機器人流程自動化。
知識產(chǎn)業(yè),是用人產(chǎn)生知識,轉(zhuǎn)移知識的產(chǎn)業(yè),「白領(lǐng)工人」奮斗主戰(zhàn)場。其中,金融是最典型的,此外還有專業(yè)服務(wù)、政務(wù)服務(wù)、傳媒服務(wù)、教育服務(wù)等等。知識產(chǎn)業(yè)在經(jīng)濟中權(quán)重巨大,加在一起一共是占美國GDP的35%。美國的GDP里各種工業(yè)的占比是18%,知識產(chǎn)業(yè)在美國經(jīng)濟的比重是工業(yè)的兩倍。
工業(yè)早就從手工業(yè)變成了大工業(yè),但知識產(chǎn)業(yè)還沒有完成這個轉(zhuǎn)變,不管是教育、金融還是各種會計法律的服務(wù),都像是一種手工業(yè),依賴于個人的知識和人脈,而不是一種有體系可依賴的大型系統(tǒng),所以知識產(chǎn)業(yè)可以說目前還沒有完成工業(yè)化。
目前知識產(chǎn)業(yè)在美國是7萬億美元的規(guī)模,工業(yè)化一旦完成,我相信能夠創(chuàng)造的價值是不止于此的。它所能夠帶來的價值和沖擊,不夸張地說是大于200年前的工業(yè)革命的,這可能是我們當(dāng)代最大的一個機會。
現(xiàn)在的知識產(chǎn)業(yè)是用人來產(chǎn)生知識和轉(zhuǎn)移知識的,我們的愿景是未來用機器來產(chǎn)生知識、轉(zhuǎn)移知識。
知識產(chǎn)業(yè)的自動化,就需要用到知識技術(shù),這也是非常龐大的一個技術(shù)體系。當(dāng)然籠統(tǒng)來講,知識技術(shù)可以分為兩大類技術(shù),一類是產(chǎn)生知識的技術(shù),一類是轉(zhuǎn)移知識的技術(shù),今天整個話題都是圍繞著這兩大類技術(shù)來展開的。
想要深刻理解RPA,就得明白流程自動化處理的「知識」是什么。小到一次報稅,大到各機構(gòu)間的合作,蘊藏著知識產(chǎn)業(yè)各階段的需求和知識技術(shù)的發(fā)展軌跡。
在計算機科學(xué)里,知識就是結(jié)構(gòu)(structure),或者說它是事物(thing)之間的聯(lián)系(relation)。比如親屬關(guān)系,比如說爸爸的爸爸是爺爺,是普適性的知識。我們身邊所有的事物之間的關(guān)系本質(zhì)上都是知識。比如一張發(fā)票,它的表格的框就是結(jié)構(gòu),所以我們遇到的每一張發(fā)票其實都是一個知識庫。
并非只有文本類才算知識,只要能夠事物之間產(chǎn)生關(guān)系的,它都是知識。
例如寶馬汽車的自動車庫系統(tǒng),車子靠近車庫時,車庫門會自動打開——車子和車庫這種靠近關(guān)系,本身就構(gòu)成了一個結(jié)構(gòu),這也是知識,也會產(chǎn)生事件。稍后我們會看到,這也是流程自動化的一個重要組成部分。
過去一年,我們聽到RPA這個詞,但并不意味著流程自動化是最近一年才出現(xiàn),它很久以前就已經(jīng)出現(xiàn),只是不叫這個名字。
流程自動化技術(shù)其實在很久以前就有了,1.0 版本主要是自動化手。
在十五到二十年前,新聞自動化推送技術(shù)叫mash up。當(dāng)年社交網(wǎng)絡(luò)剛剛興起,每個社交網(wǎng)絡(luò)都會有一些API(應(yīng)用編程接口),有人就想怎么把這兩種不同的應(yīng)用串起來,或者把不同應(yīng)用的數(shù)據(jù)源用機器自動串起來自動分發(fā)。RSS就是其中用于新聞的自動分發(fā)的一個技術(shù)。
與此相關(guān)的,還有另一種類型的應(yīng)用:美國的IFTTT網(wǎng)站(if this then that)。
如果你有個to do list,要在你的亞馬遜音箱上面來提醒你,做同步;或者你喜歡了一個spotify播放列表,要從video里面把歌曲剝離出來,這些自動化的任務(wù),由一個觸發(fā)器然后導(dǎo)致一個預(yù)定的動作,這就是if this then that。
IFTTT剛剛被發(fā)明出來的時候,更多的是這種任務(wù):比如一條推特一旦滿足關(guān)鍵詞需求,就自動轉(zhuǎn)發(fā)到Facebook。其實這也是一種to C的流程自動化。
To B的也有很多,比如歷史上很有名的IBM Clio項目,1999年就開始了。因為企業(yè)內(nèi)部有很多數(shù)據(jù)壁壘,有很多不同的內(nèi)部IT系統(tǒng),系統(tǒng)背后又都有不同的數(shù)據(jù)庫。要想把這些數(shù)據(jù)庫打通,是很麻煩的。
所以IBM就起了這么一個項目:怎么能夠把不同數(shù)據(jù)庫之間的數(shù)據(jù)模式做自動發(fā)現(xiàn)對齊,之后用統(tǒng)一數(shù)據(jù)查詢,實現(xiàn)多數(shù)據(jù)源的數(shù)據(jù)集成自動化,最終實現(xiàn)任務(wù)自動化——這個問題,到今天也沒有完全被解決掉。
剛才介紹了知識和流程自動化這兩個核心概念,他們之間的關(guān)系是什么?如果我們想有流程的自動化,就必須擁有機器可讀的結(jié)構(gòu)化數(shù)據(jù),即知識。然后才能用機器或者軟件代理來自動化執(zhí)行任務(wù)。
這也是狹義RPA。
UiPath這樣的RPA公司,在美國剛開始的時候其實就是做軟件代理的自動化任務(wù)執(zhí)行。
在美國報稅,代發(fā)工資的公司ADP在每年年初會給寄工資單W-2,列明去年的收入、各項稅額等。稅表里的數(shù)據(jù)要挪到美國稅務(wù)局給的一張個人報稅表(1040),再把這個表導(dǎo)到各種報稅軟件,如TurboTax。人就需要做這樣一個應(yīng)用間的數(shù)據(jù)轉(zhuǎn)移。
之前都是我們自己,或者雇個會計幫你做,這就是用手來做應(yīng)用間的數(shù)據(jù)的轉(zhuǎn)移?,F(xiàn)在可以用RPA機器人來做。
在企業(yè)環(huán)境下,這件事也很重要,因為企業(yè)內(nèi)部有很多不同的IT系統(tǒng)都需要被打通,比如說CRM系統(tǒng)和內(nèi)部ERP系統(tǒng)怎么對接資源?它們可能都是不同廠商實現(xiàn)的,所以就需要用一些自動化的數(shù)據(jù)扒取技術(shù)來實現(xiàn)。
這個技術(shù)并不是全新的,其實之前在很多其他地方已經(jīng)出現(xiàn)過了,比如90年代末的游戲外掛,后來有了更加先進的軟件如按鍵精靈等。
互聯(lián)網(wǎng)公司的測試團隊也在做類似的事情,比如說開發(fā)網(wǎng)站,要測試所有使用路徑是否正常,達到預(yù)期結(jié)果。但這過程很復(fù)雜麻煩,可能要測試幾百個不同的路徑。
一般軟件的測試,只要把一些use case寫進代碼里,但是像這種Web的軟件測試要在瀏覽器里運行,要從瀏覽器的頁面里面把數(shù)據(jù)抓出來、填進去,所以最早為了解決這種外部的自動測試問題,就開發(fā)了一系列的技術(shù)。
這里面引用的是Selenium,一個很常用的外部自動化測試框架。如果你要做一個user login,寫很少一段的Python代碼就可以做這件事情。
同樣地,你也可以分析頁面,可以讀取、抓取、填寫數(shù)據(jù)。所以你會看到自動測試的軟件跑起來的時候,這臺機器就好像著了魔一樣,鼠標(biāo)亂飛,一些數(shù)據(jù)自動就被填進去了。
現(xiàn)在的RPA技術(shù)其實就是從自動化測試技術(shù)衍生出來的,這就是RPA的1.0時代:如何去自動在不同的應(yīng)用之間做數(shù)據(jù)的轉(zhuǎn)移,這個應(yīng)用可能是windows上的桌面程序,也有可能是瀏覽器里的互聯(lián)網(wǎng)Web程序。
近兩年,RPA開始進入第二階段。
之前的1.0階段,所要移動的數(shù)據(jù)基本是現(xiàn)有的結(jié)構(gòu)化數(shù)據(jù),比如在兩個網(wǎng)頁之間傳數(shù)據(jù),數(shù)據(jù)已經(jīng)被結(jié)構(gòu)化了,只是它呈現(xiàn)的是所謂的網(wǎng)頁結(jié)構(gòu),或?qū)⒁延械目勺xXML、電子表格,轉(zhuǎn)到另外一個程序里。
但如果是PDF這種比較復(fù)雜的大量表格,或者新聞,招股說明書、債券募集說明書、信貸文件等,以及格式不復(fù)雜但內(nèi)容很復(fù)雜,比如法院判決書,你要能夠在這里面進行應(yīng)用之間的數(shù)據(jù)轉(zhuǎn)移,這就需要知識提取的技術(shù)。
簡而言之,RPA 1.0時代,可以移動原有的結(jié)構(gòu)化數(shù)據(jù)——RPA 2.0時代,可以生產(chǎn)結(jié)構(gòu)化數(shù)據(jù),移動非結(jié)構(gòu)化數(shù)據(jù),這就是核心的區(qū)別。
這個過程,其實之前是咱們用實習(xí)生——或者叫小弟小妹科技——用一些比較初級的工作人員來做的。流程自動化之后,RPA 1.0、2.0可以替代初級人員,這也是所謂的“加工已知的已知”:原來文件和表格有哪些數(shù)據(jù),我們非常忠實地把這些字符串給遷移過去。
上圖左邊的文本原文講到一個公司有信用危機,這就需要提取核心內(nèi)容,比如公司出現(xiàn)的問題,它跟其他相關(guān)聯(lián)的所謂實體,如上游公司、子公司,或者打官司的對手公司有什么關(guān)系?這樣就從一個非結(jié)構(gòu)化的文本變成了結(jié)構(gòu)化的三元組數(shù)據(jù)。
這也是我們過去這幾年之間為用戶做得最多的事情。我們跟證券交易所、一些銀行一直都在做這種金融監(jiān)管、信貸、資產(chǎn)管理領(lǐng)域中大量的文件自動化處理,以前要幾個月時間才能處理完的招股說明書,現(xiàn)在10秒鐘之內(nèi)就可以自動把幾百頁的內(nèi)容都提取出來。
在這個階段,就不僅僅是把數(shù)據(jù)原樣加工和轉(zhuǎn)移,而是自動化業(yè)務(wù)知識。
比如金融監(jiān)管有合規(guī)的需求,交易所的合規(guī)文件非常多。要把里面所包含的業(yè)務(wù)知識,轉(zhuǎn)化成機器可以執(zhí)行的業(yè)務(wù)規(guī)則,這不僅需要識別數(shù)據(jù)本身,而要知道數(shù)據(jù)背后隱藏的內(nèi)容,以及通過這些數(shù)據(jù)可推理出的結(jié)果。
所以,關(guān)鍵過程是如何讓機器挖掘這些關(guān)系,和自動化的管理。從這個意義上來講,RPA 3.0就是自動化腦的過程。一旦完成這一步,能夠替代的不僅僅是初級人員,還有一些中級人員。
這里兩大核心技術(shù),一是知識圖譜技術(shù),另一個是推理機技術(shù)。
知識圖譜的技術(shù),本質(zhì)上來說,就是說如何發(fā)現(xiàn)未知的已知。有了數(shù)據(jù),可以推理出背后隱藏的關(guān)系。
比如說張三是李四的哥哥,李四是王五的哥哥,可以推理出來,張三是王五的哥哥,因為這是一個傳遞關(guān)系。這就是如何通過已知,發(fā)現(xiàn)未知的已知。
當(dāng)然在To B的應(yīng)用里,有更加專業(yè)的各種關(guān)系:比如通過各種隱藏的股權(quán)關(guān)系和已知的擔(dān)保關(guān)系,發(fā)現(xiàn)未知的擔(dān)保關(guān)系,可以通過股權(quán)網(wǎng)絡(luò)發(fā)現(xiàn)不同公司間的集團派系;甚至還可以發(fā)現(xiàn)要隱藏的一致行動人關(guān)系,比如兩個人關(guān)系很密切,他注冊了好幾個公司都在同一個地址里面,這兩個人可能潛在有非常強的相互關(guān)聯(lián)關(guān)系。
通過這些關(guān)系,可以發(fā)現(xiàn)很多隱藏的風(fēng)險,這就是知識圖譜技術(shù)能夠幫助我們做到的——讀懂?dāng)?shù)據(jù)不僅僅只是看到字面上的東西,而且還看到背后隱藏的關(guān)系。
但有時候知識圖譜技術(shù)不夠用。當(dāng)我們有了更加深刻的知識,比如說財務(wù)的勾稽關(guān)系、大量的BPM管理知識,這需要用更加復(fù)雜的知識管理技術(shù),各種各樣的規(guī)則系統(tǒng)。
如果規(guī)則很少,只有十幾條,其實用什么系統(tǒng)都無所謂,隨便找一個本科畢業(yè)生都可以搞得定。但當(dāng)你有幾百條規(guī)則,再用規(guī)則編輯器,就很難管理了。當(dāng)規(guī)則有一千條,一般的團隊基本已經(jīng)不能勝任這種任務(wù)。
通常做一個問答系統(tǒng),既需要深度學(xué)習(xí)或自然語言處理的能力,也需要規(guī)則的能力。一般來說,管理1000條規(guī)則已經(jīng)很復(fù)雜了,這個系統(tǒng)就已經(jīng)看起來很聰明。但是還不夠,如果想讓系統(tǒng)看起來非常地魯棒和聰明,通常需要1萬條左右的規(guī)則。
比如說IBM的Watson系統(tǒng),它的前面寫了大概8000條的規(guī)則——如果想搞定這1萬條規(guī)則,需要“滅霸級”的能力,這是絕大多數(shù)的團隊是不具備的。
如何管理大量規(guī)則?需要引入知識庫管理系統(tǒng),推理機是最核心的一環(huán),通過大量的規(guī)則,找到合理的結(jié)果并解釋。
這事的邏輯很簡單,但為什么在工程上非常困難?因為不可能找到一個自洽的邏輯系統(tǒng),不同的人寫出的業(yè)務(wù)規(guī)則肯定會打架,如果推理機不能消解這種沖突,在現(xiàn)實中肯定沒用。
另外,也不可能把全部的知識庫都給結(jié)構(gòu)化或者規(guī)則化,很多是半結(jié)構(gòu)化的。怎么把結(jié)構(gòu)化和半結(jié)構(gòu)化的知識整合在一起使用,降低總擁有成本,這也非常復(fù)雜。
最后推理出來一個結(jié)果,還要解釋它,比如法律判案、醫(yī)療診斷,都是基于大量的業(yè)務(wù)知識,不能說“系統(tǒng)它告訴我就是這樣,我也不知道是為什么”。比如判案,肯定是根據(jù)某一條結(jié)果、某一個法律,這就是叫可解釋的人工智能系統(tǒng),這是跟深度學(xué)習(xí)非常不一樣的地方。
所以演繹的能力、消解沖突的能力、結(jié)果的解釋能力加在一起,其實就是推理機最核心的幾個模塊。
當(dāng)然還有很多其他的模塊,比如推理加速。有了這些之后,我們就可以讓機器學(xué)會自動管理,從而讓大規(guī)模業(yè)務(wù)知識的執(zhí)行自動化,來實現(xiàn)輔助中級業(yè)務(wù)人員的能力。
銀行間協(xié)會的債券發(fā)行合規(guī)文件非常多,所以要構(gòu)造出大量這樣的業(yè)務(wù)規(guī)則系統(tǒng),每個節(jié)點上面都會讀取相應(yīng)的數(shù)據(jù),從而完成整個合規(guī)的檢查過程。
先提取公告,檢查是否含違規(guī)內(nèi)容,比如發(fā)行時間,業(yè)績預(yù)測符合此前預(yù)測,重大合同是否滿足披露準(zhǔn)則等等。
上市公司公告有多少種?400種。IPO審核后要看多少個數(shù)據(jù)點?7000個。這些全部用人工來做,肯定做不完,所以一定要用機器來做。
一個監(jiān)管系統(tǒng)里面可以跑2500條規(guī)則,基于這些規(guī)則自動做數(shù)據(jù)路由、分析、統(tǒng)計,最后生成各種預(yù)警,發(fā)送給相應(yīng)的人,生成各種各樣的報表。這是一個非常復(fù)雜的業(yè)務(wù)流程,只有RPA 3.0時代的系統(tǒng)才能夠勝任。如果只有手工的規(guī)則編輯器,很難去滿足這樣的需求。
展望一下,其實RPA到了這個階段,以后要做的就不只是自動化一些簡單流程,實際上是要把企業(yè)的業(yè)務(wù)自動化,或者企業(yè)有BPM、ERP、PLM、CRM系統(tǒng)……企業(yè)內(nèi)部各種不同的資源都會有一個管理系統(tǒng),這些管理系統(tǒng)現(xiàn)在背后都是數(shù)據(jù)庫,未來則會是基于知識庫來進行企業(yè)資源的調(diào)度。
例如CRM系統(tǒng)以前都是用關(guān)系數(shù)據(jù)庫,現(xiàn)在越來越多用到圖數(shù)據(jù)庫,BPM、SEM、供應(yīng)鏈系統(tǒng)也是一樣。越來越多圖譜的數(shù)據(jù),有越來越多的規(guī)則,和數(shù)據(jù)規(guī)則知識庫,怎么把這些整合在一起?就變成了知識庫管理系統(tǒng)。
知識庫再加上推理機,我認(rèn)為這可能是下一代的RPA系統(tǒng)最核心的技術(shù),就是怎么構(gòu)造出一個能夠通用于所有IT系統(tǒng)底層的知識庫管理系統(tǒng)。我相信,它會替代之前類似Oracle這樣的數(shù)據(jù)庫管理系統(tǒng)的地位。
組織內(nèi)是完全信任的環(huán)境,而組織間是不完全信任環(huán)境,
前三個階段一直在講,組織內(nèi)部如何實現(xiàn)業(yè)務(wù)知識的產(chǎn)生自動化和轉(zhuǎn)移自動化。顯然,自動化不會僅僅只限于組織內(nèi)部。
如果要在兩個組織之間構(gòu)造出這樣一個自動化系統(tǒng),面臨的核心挑戰(zhàn)是:組織內(nèi)是完全信任的環(huán)境,而組織間是不被完全信任的。
在組織間建立自動化信任機制,我們稱為分布式信任技術(shù)。
為什么要用這種技術(shù)?以開放銀行為例,未來的銀行其實是一堆API組合在一起的數(shù)據(jù)服務(wù),但要想構(gòu)造出這樣的分布式應(yīng)用,就必須建立起一個高度可信的工作環(huán)境。
有了這種分布式信任能力,就進入了RPA的第4個階段——自動化心,這也代表人和人之間的信任。
說到分布式信任,大家肯定想到區(qū)塊鏈,其實它只是可追責(zé)性技術(shù)的一個分支。
此外,分布式信任還包括了信任度的電子化,比如說電子身份、電子合同、電子發(fā)票等等,也包括了開放調(diào)度系統(tǒng)技術(shù),還有服務(wù)的發(fā)現(xiàn)和注冊、服務(wù)的編排和集成,分發(fā)引擎等等……這些技術(shù)在十幾年前叫web service。
這個概念由圖靈獎得主Tim Berners-Lee提出。
構(gòu)造一個大規(guī)模的協(xié)作系統(tǒng),很難事先阻止所有不軌行為。如果完全阻止,系統(tǒng)就非常沒有活力。只能是給每個人設(shè)定做事的合理范圍,如果做錯,產(chǎn)生不良后果,我們可以找你負責(zé),這就叫事后追責(zé)。
這個技術(shù)需要以下環(huán)節(jié):
忠實記錄數(shù)據(jù)處理和傳播的過程。這個現(xiàn)在是用區(qū)塊鏈來實現(xiàn)。十幾年前還沒有區(qū)塊鏈,Tim的實驗室發(fā)明了一整套跟區(qū)塊鏈并行的技術(shù)來做。當(dāng)時我也參與了這個工作。現(xiàn)在其實兩個技術(shù)已經(jīng)融合了。
擁有現(xiàn)場記錄后,還要取一手證據(jù)。如果發(fā)現(xiàn)問題,要一步一步重建犯罪現(xiàn)場,需要溯源圖譜技術(shù)(provenance)。
發(fā)現(xiàn)了問題也收集到了證據(jù),必須建立起支撐結(jié)論的證據(jù)充分的完整鏈條,這就是證據(jù)推理技術(shù)(proof&justification)
以上環(huán)節(jié)加在一起,才是完整的可追責(zé)能力,這也是對現(xiàn)在區(qū)塊鏈的重要補充。
Tim Berners-Lee過去十幾年時間一直在促進這種技術(shù)的成熟;這兩年在開發(fā)SOLID框架,這是基于分布式的去中心化應(yīng)用,可以是結(jié)合知識圖譜和區(qū)塊鏈構(gòu)造一種可追責(zé)的分布式任務(wù)自動化系統(tǒng)。
總結(jié)一下核心五大類技術(shù):
頂層技術(shù):產(chǎn)生知識,轉(zhuǎn)移知識。
產(chǎn)生知識分為:如何發(fā)現(xiàn)事物(知識提取技術(shù)),如何發(fā)現(xiàn)關(guān)系(知識圖譜技術(shù))。
轉(zhuǎn)移知識分為:組織內(nèi)、組織間轉(zhuǎn)移知識的技術(shù)。
組織內(nèi)分為:自動化測試技術(shù)或RPA 1.0的技術(shù),推理機技術(shù)。
組織間轉(zhuǎn)移知識的技術(shù),就是分布式信任的基礎(chǔ)。
從RPA的四個階段來總結(jié):
1.0:自動化手,基于自動化測試技術(shù),從而實現(xiàn)數(shù)據(jù)搬移。
2.0:自動化眼,實現(xiàn)數(shù)據(jù)識別——1.0和2.0結(jié)合,實現(xiàn)了對初級人員工作的替代。
3.0:自動化腦,基于知識圖譜和推理機技術(shù),幫助我們進行機器自動化管理。
4.0:自動化心(信任建立),加上3.0就是對中級人員的替代。
從另一個角度來劃分,前三個階段主要關(guān)注內(nèi)部自動化調(diào)度;最后階段關(guān)注外部自動化調(diào)度。
文因互聯(lián)當(dāng)前是關(guān)注在2.0和3.0。過去三年,我們一直圍繞著RPA 2.0的技術(shù),在做各種金融文檔的自動化識別和流程自動化。最近逐漸轉(zhuǎn)移到RPA 3.0的開發(fā),即如何自動化腦、大規(guī)模批量產(chǎn)生成千上萬條規(guī)則和批量管理。
RPA 4.0,如何實現(xiàn)組織間的自動化調(diào)度系統(tǒng),這也是我們今后兩三年內(nèi)最重要的一件事情。
最后也給出我的兩條建議:要么參與這一場自動化的革命,從被機器取代轉(zhuǎn)為與機器協(xié)作;要么調(diào)整自己的方向,往未知的未知深耕,去發(fā)揮自己的創(chuàng)造力。
問:關(guān)于分布式信用平臺,是不是和聯(lián)邦學(xué)習(xí)的聯(lián)合建模異曲同工?
鮑捷:基于我的理解,聯(lián)邦學(xué)習(xí)應(yīng)該是每一個不同的數(shù)據(jù)源,需要保護自身隱私,然后再自動化、相當(dāng)于去隱私的環(huán)境下,來進行一個集成的學(xué)習(xí)。
這個跟分布式信任應(yīng)該是在做不同的事情。分布式信任解決的是我如何信任一個數(shù)據(jù);聯(lián)邦學(xué)習(xí)解決的是我如何在不破壞隱私的情況下實現(xiàn)學(xué)習(xí)。這兩個應(yīng)該是互補的技術(shù)。當(dāng)然除了聯(lián)邦學(xué)習(xí)技術(shù),我認(rèn)為同態(tài)加密技術(shù)也是很重要的。
問:RPA感覺是NLP在推薦搜索更進一步的應(yīng)用,比搜索推薦要難,搜索推薦的本質(zhì)還是關(guān)鍵詞匹配,talk的API就不止關(guān)鍵詞匹配了,要怎么理解文本中的實體和關(guān)系?
鮑捷:其實核心就在于傳統(tǒng)的NLP階段,我們要處理的都是字符串,要在字符串之間做一些對應(yīng)關(guān)系。
而在所謂的圖譜階段,我們所要處理的都是實體,每一個實體都是有UUID的,比如說全國有多少個叫“王偉”的人,“王偉”是一個字符串,但是我們想?yún)^(qū)別不同的“王偉”,就需要給他UUID,這就是變成了實體。
所以說在做實體的時候,我們要做的就不是關(guān)鍵詞匹配了,RPA其實從整體上來說還是做實體的匹配。
問:NLP這些算法并不能達到百分之百成功的效果。如果是流程自動化,對結(jié)果的準(zhǔn)確度要求應(yīng)該挺高的,想知道實際中如何平衡這種技術(shù)的局限性和業(yè)務(wù)的需求?
鮑捷:第一種方法,你這個系統(tǒng)如果要嚴(yán)格一點,你可以降低recall,但是你提取出來給我的數(shù)據(jù),你要保證這個是正確的,可以用precision 和recall之間做一個交換。
另一種辦法就是人工加機器,這個機器先做一輪,然后人工審閱一輪。這也是絕大多數(shù)實施成功的案例里面最終用的方法,就是人工加上機器做一段初步的分析,再用校驗人員來做后面的數(shù)據(jù)提升,特別是補漏。
其實還有其他的平衡,比如說如果一部分確實是正確度不高的話,始終都不高,這部分可能我們就不追求它的自動化了,放棄本身也是一種很好的做法。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。