文因互聯(lián)CEO鮑捷：RPA時(shí)代的「白領(lǐng)工人保命指南」

本文作者：周蕾

2020-06-02 19:58

導(dǎo)語(yǔ)：知識(shí)產(chǎn)業(yè)將由手工業(yè)走向大工業(yè)。

近日，文因互聯(lián)創(chuàng)始人、CEO 鮑捷博士在雷鋒網(wǎng)公開(kāi)課上，以「RPA如何從1.0走到4.0時(shí)代」為題講述了流程自動(dòng)化的前世今生。

RPA從1.0到4.0，是對(duì)手、眼、腦和心的自動(dòng)化，實(shí)現(xiàn)對(duì)數(shù)據(jù)搬移、識(shí)別、機(jī)器自動(dòng)化管理和信任的建立，逐步替代初級(jí)和中級(jí)工作人員；與此同時(shí)，是幫助組織從提高現(xiàn)有業(yè)務(wù)的效率到創(chuàng)造新業(yè)務(wù)、實(shí)現(xiàn)開(kāi)放生態(tài)互聯(lián)的過(guò)程。

關(guān)注公眾號(hào)「AI金融評(píng)論」后臺(tái)回復(fù)關(guān)鍵詞“聽(tīng)課”，收看本節(jié)課程視頻回放。

以下為鮑捷的分享內(nèi)容節(jié)選，雷鋒網(wǎng)做了不改變?cè)獾膭h減：

一開(kāi)始我起的題目叫「白領(lǐng)工人保命指南」，意思是怎么用知識(shí)工程（知識(shí)工程是人工智能大分支之一，另外兩個(gè)大分支是機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)。）這種技術(shù)，來(lái)幫助白領(lǐng)工人實(shí)現(xiàn)自動(dòng)化工作——某種程度上也是“替代”他的工作。

過(guò)去這二十年時(shí)間里，我一直都在從事這種“邪惡”的研究——機(jī)器人流程自動(dòng)化。

機(jī)器流程自動(dòng)化時(shí)代：知識(shí)產(chǎn)業(yè)將由手工業(yè)走向大工業(yè)

知識(shí)產(chǎn)業(yè)，是用人產(chǎn)生知識(shí)，轉(zhuǎn)移知識(shí)的產(chǎn)業(yè)，「白領(lǐng)工人」奮斗主戰(zhàn)場(chǎng)。其中，金融是最典型的，此外還有專業(yè)服務(wù)、政務(wù)服務(wù)、傳媒服務(wù)、教育服務(wù)等等。知識(shí)產(chǎn)業(yè)在經(jīng)濟(jì)中權(quán)重巨大，加在一起一共是占美國(guó)GDP的35%。美國(guó)的GDP里各種工業(yè)的占比是18%，知識(shí)產(chǎn)業(yè)在美國(guó)經(jīng)濟(jì)的比重是工業(yè)的兩倍。

工業(yè)早就從手工業(yè)變成了大工業(yè)，但知識(shí)產(chǎn)業(yè)還沒(méi)有完成這個(gè)轉(zhuǎn)變，不管是教育、金融還是各種會(huì)計(jì)法律的服務(wù)，都像是一種手工業(yè)，依賴于個(gè)人的知識(shí)和人脈，而不是一種有體系可依賴的大型系統(tǒng)，所以知識(shí)產(chǎn)業(yè)可以說(shuō)目前還沒(méi)有完成工業(yè)化。

目前知識(shí)產(chǎn)業(yè)在美國(guó)是7萬(wàn)億美元的規(guī)模，工業(yè)化一旦完成，我相信能夠創(chuàng)造的價(jià)值是不止于此的。它所能夠帶來(lái)的價(jià)值和沖擊，不夸張地說(shuō)是大于200年前的工業(yè)革命的，這可能是我們當(dāng)代最大的一個(gè)機(jī)會(huì)。

現(xiàn)在的知識(shí)產(chǎn)業(yè)是用人來(lái)產(chǎn)生知識(shí)和轉(zhuǎn)移知識(shí)的，我們的愿景是未來(lái)用機(jī)器來(lái)產(chǎn)生知識(shí)、轉(zhuǎn)移知識(shí)。

文因互聯(lián)CEO鮑捷：RPA時(shí)代的「白領(lǐng)工人保命指南」

知識(shí)產(chǎn)業(yè)的自動(dòng)化，就需要用到知識(shí)技術(shù)，這也是非常龐大的一個(gè)技術(shù)體系。當(dāng)然籠統(tǒng)來(lái)講，知識(shí)技術(shù)可以分為兩大類技術(shù)，一類是產(chǎn)生知識(shí)的技術(shù)，一類是轉(zhuǎn)移知識(shí)的技術(shù)，今天整個(gè)話題都是圍繞著這兩大類技術(shù)來(lái)展開(kāi)的。

想要深刻理解RPA，就得明白流程自動(dòng)化處理的「知識(shí)」是什么。小到一次報(bào)稅，大到各機(jī)構(gòu)間的合作，蘊(yùn)藏著知識(shí)產(chǎn)業(yè)各階段的需求和知識(shí)技術(shù)的發(fā)展軌跡。

在計(jì)算機(jī)科學(xué)里，知識(shí)就是結(jié)構(gòu)（structure），或者說(shuō)它是事物（thing）之間的聯(lián)系（relation）。比如親屬關(guān)系，比如說(shuō)爸爸的爸爸是爺爺，是普適性的知識(shí)。我們身邊所有的事物之間的關(guān)系本質(zhì)上都是知識(shí)。比如一張發(fā)票，它的表格的框就是結(jié)構(gòu)，所以我們遇到的每一張發(fā)票其實(shí)都是一個(gè)知識(shí)庫(kù)。

并非只有文本類才算知識(shí)，只要能夠事物之間產(chǎn)生關(guān)系的，它都是知識(shí)。

例如寶馬汽車的自動(dòng)車庫(kù)系統(tǒng)，車子靠近車庫(kù)時(shí)，車庫(kù)門會(huì)自動(dòng)打開(kāi)——車子和車庫(kù)這種靠近關(guān)系，本身就構(gòu)成了一個(gè)結(jié)構(gòu)，這也是知識(shí)，也會(huì)產(chǎn)生事件。稍后我們會(huì)看到，這也是流程自動(dòng)化的一個(gè)重要組成部分。

過(guò)去一年，我們聽(tīng)到RPA這個(gè)詞，但并不意味著流程自動(dòng)化是最近一年才出現(xiàn)，它很久以前就已經(jīng)出現(xiàn)，只是不叫這個(gè)名字。

RPA 1.0階段：自動(dòng)化手

RPA的前身：RSS和IFTTT

流程自動(dòng)化技術(shù)其實(shí)在很久以前就有了，1.0 版本主要是自動(dòng)化手。

在十五到二十年前，新聞自動(dòng)化推送技術(shù)叫mash up。當(dāng)年社交網(wǎng)絡(luò)剛剛興起，每個(gè)社交網(wǎng)絡(luò)都會(huì)有一些API（應(yīng)用編程接口），有人就想怎么把這兩種不同的應(yīng)用串起來(lái)，或者把不同應(yīng)用的數(shù)據(jù)源用機(jī)器自動(dòng)串起來(lái)自動(dòng)分發(fā)。RSS就是其中用于新聞的自動(dòng)分發(fā)的一個(gè)技術(shù)。

與此相關(guān)的，還有另一種類型的應(yīng)用：美國(guó)的IFTTT網(wǎng)站（if this then that）。

如果你有個(gè)to do list，要在你的亞馬遜音箱上面來(lái)提醒你，做同步；或者你喜歡了一個(gè)spotify播放列表，要從video里面把歌曲剝離出來(lái)，這些自動(dòng)化的任務(wù)，由一個(gè)觸發(fā)器然后導(dǎo)致一個(gè)預(yù)定的動(dòng)作，這就是if this then that。

IFTTT剛剛被發(fā)明出來(lái)的時(shí)候，更多的是這種任務(wù)：比如一條推特一旦滿足關(guān)鍵詞需求，就自動(dòng)轉(zhuǎn)發(fā)到Facebook。其實(shí)這也是一種to C的流程自動(dòng)化。

To B的也有很多，比如歷史上很有名的IBM Clio項(xiàng)目，1999年就開(kāi)始了。因?yàn)槠髽I(yè)內(nèi)部有很多數(shù)據(jù)壁壘，有很多不同的內(nèi)部IT系統(tǒng)，系統(tǒng)背后又都有不同的數(shù)據(jù)庫(kù)。要想把這些數(shù)據(jù)庫(kù)打通，是很麻煩的。

文因互聯(lián)CEO鮑捷：RPA時(shí)代的「白領(lǐng)工人保命指南」

所以IBM就起了這么一個(gè)項(xiàng)目：怎么能夠把不同數(shù)據(jù)庫(kù)之間的數(shù)據(jù)模式做自動(dòng)發(fā)現(xiàn)對(duì)齊，之后用統(tǒng)一數(shù)據(jù)查詢，實(shí)現(xiàn)多數(shù)據(jù)源的數(shù)據(jù)集成自動(dòng)化，最終實(shí)現(xiàn)任務(wù)自動(dòng)化——這個(gè)問(wèn)題，到今天也沒(méi)有完全被解決掉。

剛才介紹了知識(shí)和流程自動(dòng)化這兩個(gè)核心概念，他們之間的關(guān)系是什么？如果我們想有流程的自動(dòng)化，就必須擁有機(jī)器可讀的結(jié)構(gòu)化數(shù)據(jù)，即知識(shí)。然后才能用機(jī)器或者軟件代理來(lái)自動(dòng)化執(zhí)行任務(wù)。

這也是狹義RPA。

UiPath這樣的RPA公司，在美國(guó)剛開(kāi)始的時(shí)候其實(shí)就是做軟件代理的自動(dòng)化任務(wù)執(zhí)行。

RPA 1.0階段應(yīng)用舉例：報(bào)稅單自動(dòng)填寫(xiě)

在美國(guó)報(bào)稅，代發(fā)工資的公司ADP在每年年初會(huì)給寄工資單W-2，列明去年的收入、各項(xiàng)稅額等。稅表里的數(shù)據(jù)要挪到美國(guó)稅務(wù)局給的一張個(gè)人報(bào)稅表（1040），再把這個(gè)表導(dǎo)到各種報(bào)稅軟件，如TurboTax。人就需要做這樣一個(gè)應(yīng)用間的數(shù)據(jù)轉(zhuǎn)移。

文因互聯(lián)CEO鮑捷：RPA時(shí)代的「白領(lǐng)工人保命指南」

之前都是我們自己，或者雇個(gè)會(huì)計(jì)幫你做，這就是用手來(lái)做應(yīng)用間的數(shù)據(jù)的轉(zhuǎn)移?，F(xiàn)在可以用RPA機(jī)器人來(lái)做。

在企業(yè)環(huán)境下，這件事也很重要，因?yàn)槠髽I(yè)內(nèi)部有很多不同的IT系統(tǒng)都需要被打通，比如說(shuō)CRM系統(tǒng)和內(nèi)部ERP系統(tǒng)怎么對(duì)接資源？它們可能都是不同廠商實(shí)現(xiàn)的，所以就需要用一些自動(dòng)化的數(shù)據(jù)扒取技術(shù)來(lái)實(shí)現(xiàn)。

這個(gè)技術(shù)并不是全新的，其實(shí)之前在很多其他地方已經(jīng)出現(xiàn)過(guò)了，比如90年代末的游戲外掛，后來(lái)有了更加先進(jìn)的軟件如按鍵精靈等。

互聯(lián)網(wǎng)公司的測(cè)試團(tuán)隊(duì)也在做類似的事情，比如說(shuō)開(kāi)發(fā)網(wǎng)站，要測(cè)試所有使用路徑是否正常，達(dá)到預(yù)期結(jié)果。但這過(guò)程很復(fù)雜麻煩，可能要測(cè)試幾百個(gè)不同的路徑。

一般軟件的測(cè)試，只要把一些use case寫(xiě)進(jìn)代碼里，但是像這種Web的軟件測(cè)試要在瀏覽器里運(yùn)行，要從瀏覽器的頁(yè)面里面把數(shù)據(jù)抓出來(lái)、填進(jìn)去，所以最早為了解決這種外部的自動(dòng)測(cè)試問(wèn)題，就開(kāi)發(fā)了一系列的技術(shù)。

這里面引用的是Selenium，一個(gè)很常用的外部自動(dòng)化測(cè)試框架。如果你要做一個(gè)user login，寫(xiě)很少一段的Python代碼就可以做這件事情。

同樣地，你也可以分析頁(yè)面，可以讀取、抓取、填寫(xiě)數(shù)據(jù)。所以你會(huì)看到自動(dòng)測(cè)試的軟件跑起來(lái)的時(shí)候，這臺(tái)機(jī)器就好像著了魔一樣，鼠標(biāo)亂飛，一些數(shù)據(jù)自動(dòng)就被填進(jìn)去了。

現(xiàn)在的RPA技術(shù)其實(shí)就是從自動(dòng)化測(cè)試技術(shù)衍生出來(lái)的，這就是RPA的1.0時(shí)代：如何去自動(dòng)在不同的應(yīng)用之間做數(shù)據(jù)的轉(zhuǎn)移，這個(gè)應(yīng)用可能是windows上的桌面程序，也有可能是瀏覽器里的互聯(lián)網(wǎng)Web程序。

RPA 2.0階段：自動(dòng)化眼

近兩年，RPA開(kāi)始進(jìn)入第二階段。

之前的1.0階段，所要移動(dòng)的數(shù)據(jù)基本是現(xiàn)有的結(jié)構(gòu)化數(shù)據(jù)，比如在兩個(gè)網(wǎng)頁(yè)之間傳數(shù)據(jù)，數(shù)據(jù)已經(jīng)被結(jié)構(gòu)化了，只是它呈現(xiàn)的是所謂的網(wǎng)頁(yè)結(jié)構(gòu)，或?qū)⒁延械目勺xXML、電子表格，轉(zhuǎn)到另外一個(gè)程序里。

但如果是PDF這種比較復(fù)雜的大量表格，或者新聞，招股說(shuō)明書(shū)、債券募集說(shuō)明書(shū)、信貸文件等，以及格式不復(fù)雜但內(nèi)容很復(fù)雜，比如法院判決書(shū)，你要能夠在這里面進(jìn)行應(yīng)用之間的數(shù)據(jù)轉(zhuǎn)移，這就需要知識(shí)提取的技術(shù)。

簡(jiǎn)而言之，RPA 1.0時(shí)代，可以移動(dòng)原有的結(jié)構(gòu)化數(shù)據(jù)——RPA 2.0時(shí)代，可以生產(chǎn)結(jié)構(gòu)化數(shù)據(jù)，移動(dòng)非結(jié)構(gòu)化數(shù)據(jù)，這就是核心的區(qū)別。

這個(gè)過(guò)程，其實(shí)之前是咱們用實(shí)習(xí)生——或者叫小弟小妹科技——用一些比較初級(jí)的工作人員來(lái)做的。流程自動(dòng)化之后，RPA 1.0、2.0可以替代初級(jí)人員，這也是所謂的“加工已知的已知”：原來(lái)文件和表格有哪些數(shù)據(jù)，我們非常忠實(shí)地把這些字符串給遷移過(guò)去。

文因互聯(lián)CEO鮑捷：RPA時(shí)代的「白領(lǐng)工人保命指南」

上圖左邊的文本原文講到一個(gè)公司有信用危機(jī)，這就需要提取核心內(nèi)容，比如公司出現(xiàn)的問(wèn)題，它跟其他相關(guān)聯(lián)的所謂實(shí)體，如上游公司、子公司，或者打官司的對(duì)手公司有什么關(guān)系？這樣就從一個(gè)非結(jié)構(gòu)化的文本變成了結(jié)構(gòu)化的三元組數(shù)據(jù)。

這也是我們過(guò)去這幾年之間為用戶做得最多的事情。我們跟證券交易所、一些銀行一直都在做這種金融監(jiān)管、信貸、資產(chǎn)管理領(lǐng)域中大量的文件自動(dòng)化處理，以前要幾個(gè)月時(shí)間才能處理完的招股說(shuō)明書(shū)，現(xiàn)在10秒鐘之內(nèi)就可以自動(dòng)把幾百頁(yè)的內(nèi)容都提取出來(lái)。

RPA 3.0 階段：自動(dòng)化腦

在這個(gè)階段，就不僅僅是把數(shù)據(jù)原樣加工和轉(zhuǎn)移，而是自動(dòng)化業(yè)務(wù)知識(shí)。

比如金融監(jiān)管有合規(guī)的需求，交易所的合規(guī)文件非常多。要把里面所包含的業(yè)務(wù)知識(shí)，轉(zhuǎn)化成機(jī)器可以執(zhí)行的業(yè)務(wù)規(guī)則，這不僅需要識(shí)別數(shù)據(jù)本身，而要知道數(shù)據(jù)背后隱藏的內(nèi)容，以及通過(guò)這些數(shù)據(jù)可推理出的結(jié)果。

所以，關(guān)鍵過(guò)程是如何讓機(jī)器挖掘這些關(guān)系，和自動(dòng)化的管理。從這個(gè)意義上來(lái)講，RPA 3.0就是自動(dòng)化腦的過(guò)程。一旦完成這一步，能夠替代的不僅僅是初級(jí)人員，還有一些中級(jí)人員。

這里兩大核心技術(shù)，一是知識(shí)圖譜技術(shù)，另一個(gè)是推理機(jī)技術(shù)。

知識(shí)圖譜

知識(shí)圖譜的技術(shù)，本質(zhì)上來(lái)說(shuō)，就是說(shuō)如何發(fā)現(xiàn)未知的已知。有了數(shù)據(jù)，可以推理出背后隱藏的關(guān)系。

比如說(shuō)張三是李四的哥哥，李四是王五的哥哥，可以推理出來(lái)，張三是王五的哥哥，因?yàn)檫@是一個(gè)傳遞關(guān)系。這就是如何通過(guò)已知，發(fā)現(xiàn)未知的已知。

當(dāng)然在To B的應(yīng)用里，有更加專業(yè)的各種關(guān)系：比如通過(guò)各種隱藏的股權(quán)關(guān)系和已知的擔(dān)保關(guān)系，發(fā)現(xiàn)未知的擔(dān)保關(guān)系，可以通過(guò)股權(quán)網(wǎng)絡(luò)發(fā)現(xiàn)不同公司間的集團(tuán)派系；甚至還可以發(fā)現(xiàn)要隱藏的一致行動(dòng)人關(guān)系，比如兩個(gè)人關(guān)系很密切，他注冊(cè)了好幾個(gè)公司都在同一個(gè)地址里面，這兩個(gè)人可能潛在有非常強(qiáng)的相互關(guān)聯(lián)關(guān)系。

通過(guò)這些關(guān)系，可以發(fā)現(xiàn)很多隱藏的風(fēng)險(xiǎn)，這就是知識(shí)圖譜技術(shù)能夠幫助我們做到的——讀懂?dāng)?shù)據(jù)不僅僅只是看到字面上的東西，而且還看到背后隱藏的關(guān)系。

但有時(shí)候知識(shí)圖譜技術(shù)不夠用。當(dāng)我們有了更加深刻的知識(shí)，比如說(shuō)財(cái)務(wù)的勾稽關(guān)系、大量的BPM管理知識(shí)，這需要用更加復(fù)雜的知識(shí)管理技術(shù)，各種各樣的規(guī)則系統(tǒng)。

如果規(guī)則很少，只有十幾條，其實(shí)用什么系統(tǒng)都無(wú)所謂，隨便找一個(gè)本科畢業(yè)生都可以搞得定。但當(dāng)你有幾百條規(guī)則，再用規(guī)則編輯器，就很難管理了。當(dāng)規(guī)則有一千條，一般的團(tuán)隊(duì)基本已經(jīng)不能勝任這種任務(wù)。

通常做一個(gè)問(wèn)答系統(tǒng)，既需要深度學(xué)習(xí)或自然語(yǔ)言處理的能力，也需要規(guī)則的能力。一般來(lái)說(shuō)，管理1000條規(guī)則已經(jīng)很復(fù)雜了，這個(gè)系統(tǒng)就已經(jīng)看起來(lái)很聰明。但是還不夠，如果想讓系統(tǒng)看起來(lái)非常地魯棒和聰明，通常需要1萬(wàn)條左右的規(guī)則。

比如說(shuō)IBM的Watson系統(tǒng)，它的前面寫(xiě)了大概8000條的規(guī)則——如果想搞定這1萬(wàn)條規(guī)則，需要“滅霸級(jí)”的能力，這是絕大多數(shù)的團(tuán)隊(duì)是不具備的。

推理機(jī)技術(shù)

如何管理大量規(guī)則？需要引入知識(shí)庫(kù)管理系統(tǒng)，推理機(jī)是最核心的一環(huán)，通過(guò)大量的規(guī)則，找到合理的結(jié)果并解釋。

這事的邏輯很簡(jiǎn)單，但為什么在工程上非常困難？因?yàn)椴豢赡苷业揭粋€(gè)自洽的邏輯系統(tǒng)，不同的人寫(xiě)出的業(yè)務(wù)規(guī)則肯定會(huì)打架，如果推理機(jī)不能消解這種沖突，在現(xiàn)實(shí)中肯定沒(méi)用。

另外，也不可能把全部的知識(shí)庫(kù)都給結(jié)構(gòu)化或者規(guī)則化，很多是半結(jié)構(gòu)化的。怎么把結(jié)構(gòu)化和半結(jié)構(gòu)化的知識(shí)整合在一起使用，降低總擁有成本，這也非常復(fù)雜。

最后推理出來(lái)一個(gè)結(jié)果，還要解釋它，比如法律判案、醫(yī)療診斷，都是基于大量的業(yè)務(wù)知識(shí)，不能說(shuō)“系統(tǒng)它告訴我就是這樣，我也不知道是為什么”。比如判案，肯定是根據(jù)某一條結(jié)果、某一個(gè)法律，這就是叫可解釋的人工智能系統(tǒng)，這是跟深度學(xué)習(xí)非常不一樣的地方。

所以演繹的能力、消解沖突的能力、結(jié)果的解釋能力加在一起，其實(shí)就是推理機(jī)最核心的幾個(gè)模塊。

當(dāng)然還有很多其他的模塊，比如推理加速。有了這些之后，我們就可以讓機(jī)器學(xué)會(huì)自動(dòng)管理，從而讓大規(guī)模業(yè)務(wù)知識(shí)的執(zhí)行自動(dòng)化，來(lái)實(shí)現(xiàn)輔助中級(jí)業(yè)務(wù)人員的能力。

案例：債券合規(guī)的自動(dòng)化檢測(cè)和完整性檢查

銀行間協(xié)會(huì)的債券發(fā)行合規(guī)文件非常多，所以要構(gòu)造出大量這樣的業(yè)務(wù)規(guī)則系統(tǒng)，每個(gè)節(jié)點(diǎn)上面都會(huì)讀取相應(yīng)的數(shù)據(jù)，從而完成整個(gè)合規(guī)的檢查過(guò)程。

文因互聯(lián)CEO鮑捷：RPA時(shí)代的「白領(lǐng)工人保命指南」

案例：上市公司公告

先提取公告，檢查是否含違規(guī)內(nèi)容，比如發(fā)行時(shí)間，業(yè)績(jī)預(yù)測(cè)符合此前預(yù)測(cè)，重大合同是否滿足披露準(zhǔn)則等等。

上市公司公告有多少種？400種。IPO審核后要看多少個(gè)數(shù)據(jù)點(diǎn)？7000個(gè)。這些全部用人工來(lái)做，肯定做不完，所以一定要用機(jī)器來(lái)做。

一個(gè)監(jiān)管系統(tǒng)里面可以跑2500條規(guī)則，基于這些規(guī)則自動(dòng)做數(shù)據(jù)路由、分析、統(tǒng)計(jì)，最后生成各種預(yù)警，發(fā)送給相應(yīng)的人，生成各種各樣的報(bào)表。這是一個(gè)非常復(fù)雜的業(yè)務(wù)流程，只有RPA 3.0時(shí)代的系統(tǒng)才能夠勝任。如果只有手工的規(guī)則編輯器，很難去滿足這樣的需求。

展望一下，其實(shí)RPA到了這個(gè)階段，以后要做的就不只是自動(dòng)化一些簡(jiǎn)單流程，實(shí)際上是要把企業(yè)的業(yè)務(wù)自動(dòng)化，或者企業(yè)有BPM、ERP、PLM、CRM系統(tǒng)……企業(yè)內(nèi)部各種不同的資源都會(huì)有一個(gè)管理系統(tǒng)，這些管理系統(tǒng)現(xiàn)在背后都是數(shù)據(jù)庫(kù)，未來(lái)則會(huì)是基于知識(shí)庫(kù)來(lái)進(jìn)行企業(yè)資源的調(diào)度。

例如CRM系統(tǒng)以前都是用關(guān)系數(shù)據(jù)庫(kù)，現(xiàn)在越來(lái)越多用到圖數(shù)據(jù)庫(kù)，BPM、SEM、供應(yīng)鏈系統(tǒng)也是一樣。越來(lái)越多圖譜的數(shù)據(jù)，有越來(lái)越多的規(guī)則，和數(shù)據(jù)規(guī)則知識(shí)庫(kù)，怎么把這些整合在一起？就變成了知識(shí)庫(kù)管理系統(tǒng)。

知識(shí)庫(kù)再加上推理機(jī)，我認(rèn)為這可能是下一代的RPA系統(tǒng)最核心的技術(shù)，就是怎么構(gòu)造出一個(gè)能夠通用于所有IT系統(tǒng)底層的知識(shí)庫(kù)管理系統(tǒng)。我相信，它會(huì)替代之前類似Oracle這樣的數(shù)據(jù)庫(kù)管理系統(tǒng)的地位。

RPA 4.0階段：自動(dòng)化心（信任）

組織內(nèi)是完全信任的環(huán)境，而組織間是不完全信任環(huán)境，

前三個(gè)階段一直在講，組織內(nèi)部如何實(shí)現(xiàn)業(yè)務(wù)知識(shí)的產(chǎn)生自動(dòng)化和轉(zhuǎn)移自動(dòng)化。顯然，自動(dòng)化不會(huì)僅僅只限于組織內(nèi)部。

如果要在兩個(gè)組織之間構(gòu)造出這樣一個(gè)自動(dòng)化系統(tǒng)，面臨的核心挑戰(zhàn)是：組織內(nèi)是完全信任的環(huán)境，而組織間是不被完全信任的。

在組織間建立自動(dòng)化信任機(jī)制，我們稱為分布式信任技術(shù)。

為什么要用這種技術(shù)？以開(kāi)放銀行為例，未來(lái)的銀行其實(shí)是一堆API組合在一起的數(shù)據(jù)服務(wù)，但要想構(gòu)造出這樣的分布式應(yīng)用，就必須建立起一個(gè)高度可信的工作環(huán)境。

有了這種分布式信任能力，就進(jìn)入了RPA的第4個(gè)階段——自動(dòng)化心，這也代表人和人之間的信任。

說(shuō)到分布式信任，大家肯定想到區(qū)塊鏈，其實(shí)它只是可追責(zé)性技術(shù)的一個(gè)分支。

此外，分布式信任還包括了信任度的電子化，比如說(shuō)電子身份、電子合同、電子發(fā)票等等，也包括了開(kāi)放調(diào)度系統(tǒng)技術(shù)，還有服務(wù)的發(fā)現(xiàn)和注冊(cè)、服務(wù)的編排和集成，分發(fā)引擎等等……這些技術(shù)在十幾年前叫web service。

可追責(zé)性（accountability）技術(shù)

這個(gè)概念由圖靈獎(jiǎng)得主Tim Berners-Lee提出。

構(gòu)造一個(gè)大規(guī)模的協(xié)作系統(tǒng)，很難事先阻止所有不軌行為。如果完全阻止，系統(tǒng)就非常沒(méi)有活力。只能是給每個(gè)人設(shè)定做事的合理范圍，如果做錯(cuò)，產(chǎn)生不良后果，我們可以找你負(fù)責(zé)，這就叫事后追責(zé)。

這個(gè)技術(shù)需要以下環(huán)節(jié)：

忠實(shí)記錄數(shù)據(jù)處理和傳播的過(guò)程。這個(gè)現(xiàn)在是用區(qū)塊鏈來(lái)實(shí)現(xiàn)。十幾年前還沒(méi)有區(qū)塊鏈，Tim的實(shí)驗(yàn)室發(fā)明了一整套跟區(qū)塊鏈并行的技術(shù)來(lái)做。當(dāng)時(shí)我也參與了這個(gè)工作?，F(xiàn)在其實(shí)兩個(gè)技術(shù)已經(jīng)融合了。
擁有現(xiàn)場(chǎng)記錄后，還要取一手證據(jù)。如果發(fā)現(xiàn)問(wèn)題，要一步一步重建犯罪現(xiàn)場(chǎng)，需要溯源圖譜技術(shù)（provenance）。
發(fā)現(xiàn)了問(wèn)題也收集到了證據(jù)，必須建立起支撐結(jié)論的證據(jù)充分的完整鏈條，這就是證據(jù)推理技術(shù)（proof&justification）

以上環(huán)節(jié)加在一起，才是完整的可追責(zé)能力，這也是對(duì)現(xiàn)在區(qū)塊鏈的重要補(bǔ)充。

Tim Berners-Lee過(guò)去十幾年時(shí)間一直在促進(jìn)這種技術(shù)的成熟；這兩年在開(kāi)發(fā)SOLID框架，這是基于分布式的去中心化應(yīng)用，可以是結(jié)合知識(shí)圖譜和區(qū)塊鏈構(gòu)造一種可追責(zé)的分布式任務(wù)自動(dòng)化系統(tǒng)。

總結(jié)一下核心五大類技術(shù)：

頂層技術(shù)：產(chǎn)生知識(shí)，轉(zhuǎn)移知識(shí)。
產(chǎn)生知識(shí)分為：如何發(fā)現(xiàn)事物（知識(shí)提取技術(shù)），如何發(fā)現(xiàn)關(guān)系（知識(shí)圖譜技術(shù)）。
轉(zhuǎn)移知識(shí)分為：組織內(nèi)、組織間轉(zhuǎn)移知識(shí)的技術(shù)。
組織內(nèi)分為：自動(dòng)化測(cè)試技術(shù)或RPA 1.0的技術(shù)，推理機(jī)技術(shù)。
組織間轉(zhuǎn)移知識(shí)的技術(shù)，就是分布式信任的基礎(chǔ)。

從RPA的四個(gè)階段來(lái)總結(jié)：

1.0：自動(dòng)化手，基于自動(dòng)化測(cè)試技術(shù)，從而實(shí)現(xiàn)數(shù)據(jù)搬移。
2.0：自動(dòng)化眼，實(shí)現(xiàn)數(shù)據(jù)識(shí)別——1.0和2.0結(jié)合，實(shí)現(xiàn)了對(duì)初級(jí)人員工作的替代。
3.0：自動(dòng)化腦，基于知識(shí)圖譜和推理機(jī)技術(shù)，幫助我們進(jìn)行機(jī)器自動(dòng)化管理。
4.0：自動(dòng)化心（信任建立），加上3.0就是對(duì)中級(jí)人員的替代。

從另一個(gè)角度來(lái)劃分，前三個(gè)階段主要關(guān)注內(nèi)部自動(dòng)化調(diào)度；最后階段關(guān)注外部自動(dòng)化調(diào)度。

文因互聯(lián)當(dāng)前是關(guān)注在2.0和3.0。過(guò)去三年，我們一直圍繞著RPA 2.0的技術(shù)，在做各種金融文檔的自動(dòng)化識(shí)別和流程自動(dòng)化。最近逐漸轉(zhuǎn)移到RPA 3.0的開(kāi)發(fā)，即如何自動(dòng)化腦、大規(guī)模批量產(chǎn)生成千上萬(wàn)條規(guī)則和批量管理。

RPA 4.0，如何實(shí)現(xiàn)組織間的自動(dòng)化調(diào)度系統(tǒng)，這也是我們今后兩三年內(nèi)最重要的一件事情。

最后也給出我的兩條建議：要么參與這一場(chǎng)自動(dòng)化的革命，從被機(jī)器取代轉(zhuǎn)為與機(jī)器協(xié)作；要么調(diào)整自己的方向，往未知的未知深耕，去發(fā)揮自己的創(chuàng)造力。

Q&A節(jié)選

問(wèn)：關(guān)于分布式信用平臺(tái)，是不是和聯(lián)邦學(xué)習(xí)的聯(lián)合建模異曲同工？

鮑捷：基于我的理解，聯(lián)邦學(xué)習(xí)應(yīng)該是每一個(gè)不同的數(shù)據(jù)源，需要保護(hù)自身隱私，然后再自動(dòng)化、相當(dāng)于去隱私的環(huán)境下，來(lái)進(jìn)行一個(gè)集成的學(xué)習(xí)。

這個(gè)跟分布式信任應(yīng)該是在做不同的事情。分布式信任解決的是我如何信任一個(gè)數(shù)據(jù)；聯(lián)邦學(xué)習(xí)解決的是我如何在不破壞隱私的情況下實(shí)現(xiàn)學(xué)習(xí)。這兩個(gè)應(yīng)該是互補(bǔ)的技術(shù)。當(dāng)然除了聯(lián)邦學(xué)習(xí)技術(shù)，我認(rèn)為同態(tài)加密技術(shù)也是很重要的。

問(wèn)：RPA感覺(jué)是NLP在推薦搜索更進(jìn)一步的應(yīng)用，比搜索推薦要難，搜索推薦的本質(zhì)還是關(guān)鍵詞匹配，talk的API就不止關(guān)鍵詞匹配了，要怎么理解文本中的實(shí)體和關(guān)系？

鮑捷：其實(shí)核心就在于傳統(tǒng)的NLP階段，我們要處理的都是字符串，要在字符串之間做一些對(duì)應(yīng)關(guān)系。

而在所謂的圖譜階段，我們所要處理的都是實(shí)體，每一個(gè)實(shí)體都是有UUID的，比如說(shuō)全國(guó)有多少個(gè)叫“王偉”的人，“王偉”是一個(gè)字符串，但是我們想?yún)^(qū)別不同的“王偉”，就需要給他UUID，這就是變成了實(shí)體。

所以說(shuō)在做實(shí)體的時(shí)候，我們要做的就不是關(guān)鍵詞匹配了，RPA其實(shí)從整體上來(lái)說(shuō)還是做實(shí)體的匹配。

問(wèn)：NLP這些算法并不能達(dá)到百分之百成功的效果。如果是流程自動(dòng)化，對(duì)結(jié)果的準(zhǔn)確度要求應(yīng)該挺高的，想知道實(shí)際中如何平衡這種技術(shù)的局限性和業(yè)務(wù)的需求？

鮑捷：第一種方法，你這個(gè)系統(tǒng)如果要嚴(yán)格一點(diǎn)，你可以降低recall，但是你提取出來(lái)給我的數(shù)據(jù)，你要保證這個(gè)是正確的，可以用precision 和recall之間做一個(gè)交換。

另一種辦法就是人工加機(jī)器，這個(gè)機(jī)器先做一輪，然后人工審閱一輪。這也是絕大多數(shù)實(shí)施成功的案例里面最終用的方法，就是人工加上機(jī)器做一段初步的分析，再用校驗(yàn)人員來(lái)做后面的數(shù)據(jù)提升，特別是補(bǔ)漏。

其實(shí)還有其他的平衡，比如說(shuō)如果一部分確實(shí)是正確度不高的話，始終都不高，這部分可能我們就不追求它的自動(dòng)化了，放棄本身也是一種很好的做法。

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

周蕾

編輯

云計(jì)算/To B/金融科技丨微信：LorraineSummer

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章

文因互聯(lián)CEO鮑捷：RPA時(shí)代的「白領(lǐng)工人保命指南」

機(jī)器流程自動(dòng)化時(shí)代：知識(shí)產(chǎn)業(yè)將由手工業(yè)走向大工業(yè)

RPA 1.0階段：自動(dòng)化手

RPA的前身：RSS和IFTTT

RPA 1.0階段應(yīng)用舉例：報(bào)稅單自動(dòng)填寫(xiě)

RPA 2.0階段：自動(dòng)化眼

RPA 3.0 階段：自動(dòng)化腦

知識(shí)圖譜

推理機(jī)技術(shù)

案例：債券合規(guī)的自動(dòng)化檢測(cè)和完整性檢查

案例：上市公司公告

RPA 4.0階段：自動(dòng)化心（信任）

可追責(zé)性（accountability）技術(shù)

Q&A節(jié)選