1
在上篇文章《如何看待AI和保險的“水土不服”》中,好人生科技首席健康經(jīng)濟學家湯子歐博士向雷鋒網(wǎng)講述了“AI風控和傳統(tǒng)風控的矛盾”、“保險公司對AI的訴求”等業(yè)內的深坑與難點。
他向雷鋒網(wǎng)表示,AI保險風控熱度看似很高,但是里程碑根本沒有到來,應用都還停留在淺層。
究其原因,并非是保險行業(yè)對AI沒有深層次的需求,而是一批學術型的創(chuàng)業(yè)者,唯技術論,堅持“數(shù)據(jù)為王”,不愿意接受行業(yè)過去積累的知識,產(chǎn)品效果不好之后就開始抱怨,找各種數(shù)據(jù)不足、算力欠缺、預算太低的借口。
在本篇文章中,湯子歐博士將繼續(xù)探討“AI遲遲未能在保險業(yè)真正落地”的原因。
以下是專訪的完整內容,雷鋒網(wǎng)做了不改變愿意的編輯。
雷鋒網(wǎng):搭建一個很貴的機器學習團隊,做出又大又復雜的機器學習模型,但在有些情況下,往往只能解決一些小問題,是否存在大炮打蒼蠅、殺雞用宰牛刀的問題?這個問題您認為該怎么解決?
湯子歐:從方法論角度,保險風險點比銀行要多,而健康險又是保險行業(yè)風險點最多的,因為這種邏輯是和人打交道,一旦掌握好,就有可能成為全球最大的單一金融分類,規(guī)模上超過銀行、超過互聯(lián)網(wǎng),這在美國已經(jīng)是事實。
所以這些風險點注定不可能用一個模型解決,否則必然會存在方法的誤區(qū),無法兼顧有效性,單一風險覆蓋率也會下降。
利用大數(shù)據(jù)建模,必然是勤快人不能懶。我們好人生的策略其實也是這樣,針對一個風險點,至少存在一個模型,也肯定越多越好。
因為單一建模,可能會遇到多元共線性、風險交叉的情況。面對這些問題,用一個模型處理,究竟是作為噪音、還是因變量很難確定。
這個世界上許多事物都存在廣泛相互的內在聯(lián)系,也就是統(tǒng)計學上的多元共線性。
雷鋒網(wǎng):復雜的機器學習模型,在非強關聯(lián)數(shù)據(jù)的分析上,有著一定的優(yōu)勢。但因為保險是個難以預測的領域,一旦數(shù)據(jù)過于多元,會出現(xiàn)過擬合的現(xiàn)象,噪聲數(shù)據(jù)過多直接影響結果。這個問題通常有哪些解決方法?
湯子歐:過擬合本身就是一個偽命題,是象牙塔里面的人,把書本的概念賣到了社會,并引起一系列的誤解。
過擬合是一個暫時性現(xiàn)象,原因來自于過多采用了自變量β而造成的結果,過擬合和不過擬合的區(qū)別就是預測結果和真實事件的吻合程度,所謂的擬合優(yōu)度。
那些過擬合的模型,表面上使用過多自變量β顯得非常精妙,但預測的結果和事實偏離甚遠,這也是當年發(fā)生金融危機之后,華爾街被詬病的主要原因。
因為變量的增多,一定會導致模型過于脆弱,其中任何一個變量出現(xiàn)異常,比如不再適用,模型預測結果就會偏離事實,更多的變量出現(xiàn)異常,就會造成嚴重的過擬合。
對于自變量β的控制,在統(tǒng)計學和數(shù)學上早已有了定論,每個β入組之后,都要和模型里面其他因子進行協(xié)調,控制多元共線性在一定范圍之內,如果是用于金融預測,最要控制在5%以下。
出現(xiàn)過擬合現(xiàn)象的原因,就是那些做學問的人,最初沒有把事做好。
具體的解決辦法首先就是控制好多元共線性,多元共線性的現(xiàn)象有點像量子力學中那一對共振的量子,會發(fā)現(xiàn)兩個自變量β背后的表現(xiàn)可能會同進同出、同高同低。
這時候要么在兩個自變量β中選擇其中之一,把另外一個丟掉。要么選擇把自變量β進一步細分,找出其中共線性的部分,歸類到一個自變量β當中,剩下的影響因子用細化因子代表。還要考慮自變量在大尺度時間等不同觀察期間的韌性或脆弱程度。
這些都應該在統(tǒng)計建模實驗室就已經(jīng)完成,當初沒解決,后來效果不好就開始埋怨噪聲數(shù)據(jù)過多。
雷鋒網(wǎng):那行業(yè)內抱怨的噪音數(shù)據(jù)過多,又是怎樣的原因?
湯子歐:從精算的角度,世界上任何一件東西都可以被看做為數(shù)據(jù),進入模型成為β,也可以被看做噪音,關鍵在于解決問題的角度。
噪聲在統(tǒng)計學模型的影響因子不能太高,那些效果不好的模型,最后發(fā)現(xiàn)噪音的delta^2和因變量的delta^2關聯(lián)性能超過50%,在統(tǒng)計學上,完全是不合格的產(chǎn)品。
背后其實是數(shù)據(jù)清洗環(huán)節(jié)出現(xiàn)問題,我們叫做垃圾數(shù)據(jù)進、垃圾結果出。
比如醫(yī)療人工智能方向,早年好人生科技做了許多國際二次診療的事,從中我們發(fā)現(xiàn)國內疾病診斷的差錯率大概在50%左右。
類似著名的沃森,直接將國內誤診率很多的數(shù)據(jù),直接拿來做一個診斷算法。最后訓練出,比貼在電線桿的老軍醫(yī)還不準的人工智能出來。
而且,噪音數(shù)據(jù)過多的問題,統(tǒng)計學上早就已經(jīng)有個解決辦法。那就是選擇有監(jiān)督學習。
如果沒有現(xiàn)成的優(yōu)質知識圖譜,可以直接做抽樣,之后把數(shù)據(jù)拿給專家評審,就可以直接得到差錯率比例、錯誤種類的方向,相當于已經(jīng)有了金標準。
把出錯的方式方法、判斷邏輯輸回算法,這個時候再進行刷新,之后再抽樣。三遍之后就會產(chǎn)生明顯的優(yōu)化,比如把50%的差錯率降到20%,當然后面的效率會逐漸降低,前三次效率最高,最后只要比例滿足要求就可以了。
這種抽樣理論早就有明證,道理也很簡單。但是那些學術型的人工智能創(chuàng)業(yè)者,僅僅看重新算法,新的神經(jīng)網(wǎng)絡的方法優(yōu)化,對產(chǎn)業(yè)過去的知識積累,置若罔聞,甚至還不了解數(shù)據(jù)情況,就開始在行業(yè)內埋怨噪聲數(shù)據(jù)過多。
其實主要原因是他們過去該干的事沒干,也就是數(shù)據(jù)清洗,沒有把人類的錯誤數(shù)據(jù)撇開,所以這個問題我覺得應該借助劉慈欣老師的一句話“弱小和無知不是生存的障礙 傲慢才是”。
雷鋒網(wǎng):您覺得當前計算機視覺、語音&NLP、機器學習,這些分類的技術線,哪個對實際業(yè)務改善最顯著?
湯子歐:相信許多人都有這個疑問,但這個問題恰恰是讓大家都掉進了一個陷阱,這個陷阱不是我們現(xiàn)在挖的,是別人早已經(jīng)挖好的。
目前做人工智能的人,習慣性把AI分為計算機視覺、語音識別的應用,并看做人工智能應用的所有分類。
但是我們認為人工智能的概念應該分為三層:基礎層、中間層、應用層。
基礎層是人工智能產(chǎn)業(yè)的基礎,主要是對于人類感知和行為能力的替代的硬件及軟件,如傳感器、AI芯片、數(shù)據(jù)資源、云計算平臺等,這一套從工業(yè)時代以來,一直有著技術的傳承。
應用層是整合了基礎層和中間層以后,解決人類實際問題的最終產(chǎn)品化,是一種整合,過去20年很多企業(yè)都在做這件事,例如機器人等。
兩者中間是中間層,也是最難的,代表者知識圖譜。在底層上加入不同的知識圖譜就產(chǎn)生不同的應用層。
加上駕駛圖譜,就叫智能駕駛應用;加上物種識別圖譜,這就是智能安保;加上銀行風控測算圖譜,就是銀行風控專家。
去年一個調研發(fā)現(xiàn),目前國內人工智能企業(yè)95%以上,都集中在基礎層和應用層,中間層的企業(yè)特別少。也就是整個行業(yè)到現(xiàn)在還都在做,過去已經(jīng)有繼承、容易的事。
雖然早就可以通過深度學習獲得知識圖譜,但中間層發(fā)展不起來的原因一方面是數(shù)據(jù)質量不行,一方面是學者跟產(chǎn)業(yè)界結合不緊密,導致學不致用。
舉個例子,有一個人工智能項目,花了很多錢,三年研發(fā)出一個單病種的決策樹,并傳稱為重大突破。作為對比,好人生現(xiàn)在已經(jīng)積累10800種診斷決策樹,按照學者的思路,我們可能需要3萬年,而且保險行業(yè)沒有保單一病種的產(chǎn)品,只有單一病種的產(chǎn)品,完全是貨不對板,有也賣不好。這就是兩者的認知出現(xiàn)了嚴重的差距,
雷鋒網(wǎng):這種中間層的缺失,最終會導致什么問題?
湯子歐:就是現(xiàn)在這個人工智能行業(yè)的知識圖譜嚴重依賴于境外,我們在調查中發(fā)現(xiàn)很多智能音箱、智能安防的應用層廠商核心算法的識別知識庫,經(jīng)常是需要繞到國外,最后再繞回來輸出結果。
所以說知識的邏輯圖譜是在國外,這對于整個行業(yè)都非常危險,像智能燈泡,依靠國外知識庫的產(chǎn)品市占率要是高了,人家突然斷一下電,大概整個中華大地瞬間全黑了,就像芯片一樣。
雖然我們跟著西方進入到工業(yè)文明時代,但不意味著未來信息文明時代,還要一味跟隨。所有的技能我們已經(jīng)掌握,為什么不積極生成中國自己的知識圖譜。
原因可能還是認知上存在差距,現(xiàn)在的觀念還停留在有型的東西最值錢。
前幾年,保險行業(yè)為了賣保單還要送手機。這種高質量的服務,無形的產(chǎn)品需要嫁接到有形的商品,才能賣掉,含義就是服務沒有價值。
如果一直持續(xù)這種現(xiàn)象,趨勢必然是大家都去做硬件、做手機、做基礎層和應用層。
好在國內現(xiàn)在已經(jīng)認識到這個問題,像隨著手機快速迭代更新,大家已經(jīng)逐漸認識到硬件是不值錢的。但是對于硬件的一種渴望,這種報復性消費可能還因為慣性會持續(xù)一段時間。
雷鋒網(wǎng):AI未來會在保險行業(yè)產(chǎn)生怎樣的作用,有哪些點需要注意?
湯子歐:保險也好,社保也好,都是社會的安全穩(wěn)定器,隨著人工智能的深度應用,保險行業(yè)對于風險的選擇和風險的控制會更加精準。
未來的應用如果停留在過程風控,提升人的健康也就罷了,但像對核保核賠兩端的深度發(fā)掘,就會造成對于風險體也就是被保險人的過度選擇,侵害老百姓的一些保障利益,因為更精準了,但是這不是違法的。
另一方面人工智能并非是萬能的,我也同意可以重復和放大人的能力,提高效率,但人工智能思考的維度是需要人來設置,那種質變的邏輯,把原來不相干的事情進行廣泛聯(lián)想的能力肯定是不具備的
例如在保險行業(yè)的新產(chǎn)品開發(fā),我們一名保險同事在坐過山車的時候,出于職業(yè)角度查找過山車的風險概率,發(fā)現(xiàn)所有事故里面,只有1~2%是因為掉下來而發(fā)生的意外,剩余99%的死亡是因為心腦血管疾病、心臟驟停等顧客自身健康原因。他就想到拿這個數(shù)據(jù)在過山車下面,可以賣掉很多心腦血管的重疾險。
但是像過山車的人工智能應用,考慮的角度大概是怎么保證安全,就不會發(fā)生像保險這樣的聯(lián)想。
我建議人工智能應用在像醫(yī)療和保險,這樣需要深厚知識的行業(yè),盡量不要用無監(jiān)督的機器學習,即使是深度學習。
因為過去那些應用效果不好的情況,就是大量使用了無監(jiān)督的深度學習,短時間確實是效率是提高了,但是后來的試錯成本會非常高,造成用力過猛。
雷鋒網(wǎng):現(xiàn)在我們看到許多AI保險風控公司,一方面靠融資存活,無法盈利,另一方面產(chǎn)品的核心競爭力還不強,未來應該采取怎樣的策略?
湯子歐:手上存了很多彈藥的公司,理性的經(jīng)營者會用這些彈藥,很快進入到他所感興趣的產(chǎn)業(yè)領域深耕,要么參股,要么收購,要么自建,總之跟產(chǎn)業(yè)深度結合,不要局限于自己的能力。
一個教授會神經(jīng)網(wǎng)絡算法,資本就給幾億美金的時代已經(jīng)過去,不可能再有,所以必須抓住自己手上有的東西,這個忠告當面我也會這么說。
那些上輪融資余量不多,客戶也不付費,產(chǎn)品做成半吊子,錢糧又都沒了,而且還沒有未來方向,可能就來不及了。
因為即使看到新的需求,也需要花大資金去砸,需要研發(fā)周期,我覺得會倒一批,但行業(yè)又不會折損太慘,因為還是會有一些接盤。
具體的解決辦法,我以自己的親身經(jīng)歷舉例。
早年我從社保系統(tǒng)出來,開始進入商業(yè)保險領域,那時候自己還沒有能力去籌建昆侖健康險。
我去了保險公司生命人壽,當時自己就認為,做健康險一定是要和醫(yī)院打交道,因為付費的場景就高度集中在醫(yī)院。而且商保作為第二支付人,還需要和社保要打交道,要了解賠了多少。
結果我用了半年時間才明白,那些已經(jīng)在商保行業(yè)摸爬滾打多年的老兵,事實已經(jīng)各立山頭,根本不愿意跨領域溝通。
但是溝通是可以帶來價值的,和社保溝通才知道,社保風控早就已經(jīng)做了;和醫(yī)院溝通才知道,許多數(shù)據(jù)醫(yī)院本身就有,但如果不溝通,就會閉門造車。
我后來總結,不溝通的原因就是之前賣保單摟錢太容易了,2002年的時候,只給那些代理人生活費,就能圈上萬人幫你賣,所以根本不愿意往深考慮問題。
現(xiàn)在人工智能行業(yè)也存在“夜郎自大”的問題,由學者炒起來的熱度,讓大家過去獲得的融資太容易,這個容易是雙刃劍,所以過去會很浮躁,現(xiàn)在就需要沉下心來思考,或許能夠獲得轉機。
雷鋒網(wǎng):AI在保險智能營銷上的作用可能比較有限,是否因為AI主要做理性的事,而營銷本身就是感性的行為,那么未來AI在保險智能營銷中還有怎樣的前景?
湯子歐:營銷最在意的就是獲客,所謂的業(yè)績提升。
但獲客問題,在這個時代背景下有一個基本限制條件“大的流量入口已經(jīng)被壟斷”。
現(xiàn)在所有AI營銷保險公司,所做的事或者方向都是和這些流量入口合作,做二道販子,幫他們流量入口做轉化,所以他們的原生粘性已經(jīng)不在保險行業(yè)。
我們都知道當一個公司的銷售力量強大之后,就會和公司的訴求逐漸不一致了,僅剩的一致點就是以特定的價格賣最多的量。
除了這個之外,公司角度會因為資本估值等一系列因素,訴求會趨向于續(xù)高質量的收入。所以粘性已經(jīng)不在保險公司或者產(chǎn)品本身,而是感性的因素影響更多。
綜合來看,引流獲客的AI創(chuàng)業(yè)公司不太成功的第一個因素就是,高度依賴于大的流量入口,再有通過正常的做法來獲得成功已經(jīng)很難了,所以就會有一些龐氏騙局的案例。
但也不是完全沒有機會、線下的生活體驗依然存在,雖然互聯(lián)網(wǎng)已成為巨大的流量入口,但人還沒有完全活在互聯(lián)網(wǎng)之上,另外國家體制,決定政府在保險行業(yè)是有主導作用的。
所以AI保險營銷公司未來的發(fā)展方向,首先應該更好的結合線上、其次更關注線下,另外要做出真正滿足本源需求的產(chǎn)品,獨立思考,而不是盲目跟風。
跟風就是保住飯碗的做法,而不是真正的創(chuàng)新。無論在投資界,一窩蜂跟投某個領域,還是保險行業(yè),一窩蜂推出百萬醫(yī)療產(chǎn)品,沒有一個不是為了保住自己的飯碗,是主觀的懶惰認知。
像過山車旁邊的重疾險營銷,這樣經(jīng)過思考的想法,最后的效果還是值得一試的。
但是思考也應該跟上時代,不是想到過山車可以賣重疾險,就直接派人在過山車下面發(fā)傳單,新東方那樣的創(chuàng)業(yè)時代已經(jīng)過去了。
現(xiàn)在這個時代,像過山車這種,娛樂設施的網(wǎng)上流量入口還沒有被阿里或騰訊完全注意和壟斷,甚至還沒有上網(wǎng),所以更深思考,機會還是蠻多的。
此外,打破流量壟斷這件事,國家已經(jīng)注意到,互聯(lián)網(wǎng)數(shù)據(jù)和流量的壟斷已經(jīng)嚴重影響良好的生態(tài)和持續(xù)創(chuàng)新的產(chǎn)業(yè)氛圍,看到監(jiān)管正在一步步推進。
雷鋒網(wǎng):好人生面對遇到不太懂AI的客戶,一般怎么教育對方,或者怎么提供咨詢服務?
湯子歐:萬事開頭難,產(chǎn)品有了好的應用案例,后面的接受度就會高很多。
這個時代已經(jīng)不像過去,人群對于產(chǎn)品需求和消費習慣基本保持10年不變,所以過去的用戶可以很明確知道自己想要什么。
現(xiàn)在的to B行業(yè)的一大弊端,就是客戶也不知道自己想要什么,到底是要風控、還是多賣產(chǎn)品、還是需要對產(chǎn)品進行創(chuàng)新。更深入來說,比如風控,是覺得核保有問題、還是過程控制有問題、還是回顧性調查出現(xiàn)問題。
另外確定問題之后,還要明白需要怎樣的解決方案,是想要一次性、還是先解決最痛的痛點。
這些往往都是他自己的需求,但如果這個需求不清晰,我們會首先選擇進行培訓,形象講各個風險點的解決方案究竟是什么,需要怎么做?
雷鋒網(wǎng):如果客戶方使用供應商的產(chǎn)品體驗不太理想,客戶方通常情況下會怎么做?
湯子歐:這個問題恰恰體現(xiàn)to B銷售越來越難,原來都是to C才試用,現(xiàn)在to B也需要試用。
得益于現(xiàn)在信息化手段的進步,模塊化的產(chǎn)品拆解部署都非常快,接口也都非常一致,兩三天就能部署完,一旦試用過程體驗不好,更換和二次開發(fā)都沒有問題。
從好人生的使用案例來看,很少有用戶能夠提出二次開發(fā)需求,要么是滿足需求了,要么是試用之后,明白自己的真實需求了,可能根本就不需要核保,因為核保是打算放水的,直接批量放上百萬人進來,之后的在兩年抗辯期,進行回顧性調查。
另外也會存在,試用之后就走了,表示要自己開發(fā),但寫出需求之后,往往發(fā)現(xiàn)底層的知識圖譜并不存在,又回來購買了,做生意就是這樣,存在來回反復的過程。
當然最壞的情況就是訂單取消了,這種情況一般都是保險公司內部的原因,原有預算被取消等等。
雷鋒網(wǎng):您在AI保險領域從業(yè)這么多年,是否有讓你恍然大悟的一件事,甚至顛覆了你過往的認知,讓你發(fā)現(xiàn)“哦,這件事的本質原來是這樣的?!保鞘裁??
湯子歐:還真有。自己這么多年,從統(tǒng)計到風控,在社保就做風控,后來做健康險的風控。
剛剛進入商業(yè)保險的時候,我骨子里認為風控很重要,認為保費的風控、風險選擇都非常重要,是一個必需品。當然現(xiàn)在這些確實是必需品,但是2000年那個時候是充滿龐氏騙局的時代。所以在那個時代下,想法就錯了。
這一課花一年時間才想明白。2002年,大家聽到風控都會點頭,但實際上卻完全不當回事。因為野蠻生長的大環(huán)境,收到的保費永遠比過去多得多,所以對于節(jié)省過去保費的需求并不感冒。
當時他們聽到風控要先花錢,然后再省錢,而且最終只能省百分之幾。保險銷售直接表示,我這帶來的都是兩倍、三倍的變化,你那才能省幾個百分點,資產(chǎn)端也非常好。所以,風控一下子就比沒了。
這是我從體制內到體制外,被上的最大一課,因為最開始就想錯了。
雷鋒網(wǎng):您對每年不斷涌入AI保險行業(yè)的新創(chuàng)業(yè)者和優(yōu)秀技術人才有什么想說的?
湯子歐:第一,一定要給自己找好一個點,這個點越小越好,越具象越好;
第二,應該確定找到的這個點,一定是當前的剛需,千萬不是偽需求;
第三、致力于解決這個具體的剛需,一定要愿意干臟活累活,直到這個想法成功。
背后原因就是新人很難去解決大問題,首先應該是解決小問題,因為資源和社會信任都不夠。
如果找到了這個點,干臟活累活可以比別人更迅速、深入的了解這個行業(yè)。這比永遠的泛泛而談、浮在表面要好太多了。
雷鋒網(wǎng):對于新人,隨著變革的加速行業(yè)已經(jīng)完全不一樣,他們應該怎樣的去調整自己,適應市場。
湯子歐:世界的變化永遠站在當下,然后去解決一兩年就可以實現(xiàn)的問題,對于新創(chuàng)業(yè)者或者優(yōu)秀技術人才是非常重要的。
因為我已經(jīng)不在實驗室,進入社會就應該以商業(yè)的方式來實現(xiàn)價值。這個價值要在短期內能凸顯出來,否則活不到變現(xiàn)的那一天,因為這個時代和2000年已經(jīng)完全不一樣了。
所以他們應該迅速去了解自己專業(yè)領域的進展和作用,結合市場的剛需,找準一個細的點,解決一個具體的社會問題,迅速在行業(yè)內創(chuàng)造價值,并對這個價值進行變現(xiàn),活下去。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。