1
某天,編輯看到一位同事拿著手機和電腦在“聲情并茂”地朗讀他自己寫的稿件。
是不是太激動,覺得自己這篇可以點擊量“十萬+”?懷著這樣的疑問,編輯聽他用“湖南塑普”讀了一會。然后,他又朗讀了一遍。
編輯實在忍不住了:“朋友,你這么開心?在干嘛?”
這位同事“炫耀”式地拿著一段文本給編輯看——“你看準確率高不高?”
噢!他在測試訊飛語音的準確率!本著相互較勁能促使進步的理念,編輯自信地用國家認證的一級乙等普通話也讀了一遍。結(jié)果,準確率相較于這位“湖南塑普”同事,讓人大跌眼鏡。
你以為編輯這篇要講技術(shù)和背后原理?不,此處需要一個反轉(zhuǎn)——今天編輯在 BDTC 2016中國大數(shù)據(jù)技術(shù)大會上,從科大訊飛大數(shù)據(jù)研究院副院長譚昶的演講中,發(fā)現(xiàn)了一個悲劇——編輯和同事的較勁測試得出的一些數(shù)據(jù),說不定正在用于語訊飛語音技術(shù)的改進中。
眾所周知,科大訊飛的各位老大在很多場合,都對自己的“人工智能”和“大數(shù)據(jù)”十分自豪。
那么,讓他們自豪的數(shù)據(jù)是從像編輯這樣的吃瓜群眾中獲取的嗎?
按照譚昶的說法,訊飛的數(shù)據(jù)收集從6年前開始。
從 2010 年左右,訊飛開始做語音云平臺,從那時開始真正擁有互聯(lián)網(wǎng)上用戶的大數(shù)據(jù)。
現(xiàn)在訊飛的大數(shù)據(jù)有多少?來簡單算一下:譚昶稱,目前訊飛約有 8.9 億的用戶,3.6億輸入法用戶,同時從其他領(lǐng)域獲得了很多非互聯(lián)網(wǎng)數(shù)據(jù)。
有哪些?
與運營商的合作的數(shù)據(jù),如中國移動。
在智能家居、智能汽車領(lǐng)域的數(shù)據(jù)。
在智慧城市領(lǐng)域,和政府方面的合作數(shù)據(jù)。
……
而這些數(shù)據(jù)的特別之處在于,由于其中很多數(shù)據(jù)是通過人臉、聲紋識別等獲得,更具有真實性。
拿到數(shù)據(jù)后,訊飛把這些數(shù)據(jù)放到一個中型的分析及處理平臺上 。
當然現(xiàn)在也沒有看到哪個平臺能把基于人工智能的數(shù)據(jù)處理能力整合到平臺內(nèi)部來。
譚昶承認,對人工智能很自豪的訊飛現(xiàn)在也在這個領(lǐng)域做一些嘗試和實踐工作。眾所周知,訊飛的數(shù)據(jù)大多數(shù)還是語音數(shù)據(jù),把語音數(shù)據(jù)轉(zhuǎn)化成可處理的結(jié)構(gòu)化的數(shù)據(jù),真正挖掘這些數(shù)據(jù)的價值是重中之重。
他們現(xiàn)在的工作是,整合機器的GPU,進一步整合深度學習的算法模型。
把數(shù)據(jù)資源拿到手后,雖然不知道科大訊飛把這些語音數(shù)據(jù)處理到哪種程度。但是,資源到手后,開始撒網(wǎng)捕魚是任何一個企業(yè)都會做的事情。
人機交互、教育、智慧城市是科大訊飛的大數(shù)據(jù)當前主攻的方向。這三個點其實不太新鮮,在今年科大訊飛董事長劉慶峰的兩會提案中,就已經(jīng)涵蓋了這些領(lǐng)域。
然而,值得探究的是,在這三個大方向下,訊飛的數(shù)據(jù)生意到底怎么做?怎么變現(xiàn)?
譚昶揭秘:他們現(xiàn)在真正在做的大數(shù)據(jù)生意落地到三點——精準營銷、教育、政府服務(wù)。
訊飛走了其他企業(yè)利用數(shù)據(jù)做生意的老路,因為有十分成熟的模式。譚昶認為,只要有自己用戶的畫像平臺,即數(shù)據(jù) DMP 平臺,可以整合外部的數(shù)據(jù),也可以單純使用內(nèi)部數(shù)據(jù),則既可為自己精準營銷服務(wù),也可為外部企業(yè)的數(shù)據(jù)需求服務(wù)。
當然,挖掘這些數(shù)據(jù)的核心價值來對用戶進行分析、挖掘、獲取和引導的作用,最后的導流作用是直接變現(xiàn)還是對廣告點擊,要具體問題具體分析。
訊飛在這個領(lǐng)域起步其實比較晚,譚昶說,他們的主意是:
用戶8.9億,累計用戶12億,產(chǎn)生了1700類的標簽。不僅對內(nèi)部的訊飛廣告平臺提供服務(wù),也為第三方的精準營銷提供數(shù)據(jù)交換和數(shù)據(jù)查詢服務(wù)。
人工智能的技術(shù)應用在了標簽精細化的工作中。在自然語言理解方面,因為訊飛通過輸入法、開放云平臺服務(wù),產(chǎn)生了大量短文本的數(shù)據(jù),在這種短文本數(shù)據(jù)的挖掘中,使用了人工智能的技術(shù)產(chǎn)生了“一種非常精細化”的標簽分類。
比如,基于聲紋做了性別、年齡的劃分,譚昶稱,基于用戶傳統(tǒng)的行為數(shù)據(jù)或者日志數(shù)據(jù)無法得到這些精細化標簽。
在大家都關(guān)注的變現(xiàn)上,金融領(lǐng)域?qū)τ脩舻?1700 類標簽梳理后進行了廣告投放。在游戲領(lǐng)域,尤其是對用戶的年齡分別或者性別的判斷,對游戲定圖的效果影響很大。
譚昶介紹,訊飛現(xiàn)在在為學校、教育主管部門對學生的成長過程進行數(shù)據(jù)采集和分析。
他們的關(guān)注點是,一是如何用人工智能手段搜集到真正的教育過程數(shù)據(jù),二是如何把過程數(shù)據(jù)轉(zhuǎn)化為學生學習過程中的進步和優(yōu)勢。
咱們先把素質(zhì)教育拋在一邊,大家心知肚明的是,中國現(xiàn)在大部分升學手段依然是考試。
可能讀者你會說,在“考考考”的中國教育中,大家都用電腦考試就好了呀,這不就有數(shù)據(jù)?不過,你以為所有的試卷都是電子試卷嗎?這讓中國差異化的經(jīng)濟發(fā)展水平情何以堪。
如何做到無紙化收集數(shù)據(jù)?
訊飛退了一步:試卷還是有紙化,但可以掃描成無紙化。
退了一步后,發(fā)現(xiàn)掃描誰都會做,人工智能已經(jīng)解決了這個問題,不需要讓人判試卷,不僅可以閱卷答題卡上的答案,還可以讓機器判作文、主觀題、閱讀題,這就又回到了訊飛的特長——用人工智能來解決非結(jié)構(gòu)化的學習過程采集。
下一步就是解決如何讓非結(jié)構(gòu)化的過程數(shù)據(jù)變學習指導,打造個性化家庭教師。
其實說起來也很簡單。比如,小明同學進行了一場考試,不幸錯了很多題,回家要被家長進行語重心長的教育,這時機智的教育工具就來了,它針對小明的成績的情況以及薄弱點,經(jīng)過簡單分析得到了結(jié)論。通過這些結(jié)論推薦相應的課程學習的課件、老師講解的題目,以及所有可以做的練習題,按照難易程度、知識點的覆蓋面精準推送。
不過,譚昶發(fā)現(xiàn)了一個難點:這個推送聽起來和做廣告推送沒什么區(qū)別,但機器學習是非常痛苦的,因為廣告每秒鐘可以學習一千次,但一個學校、一個學期可能只能學習幾千次。
還有一個潛在的問題是:小明怎么辦?明明一頓教育可以解決,現(xiàn)在需要多做好多試卷和題(開玩笑,還是要好好學習)!
談到政府服務(wù),由于“歷史問題”,你一定經(jīng)歷過為了辦一個事情,需要跑幾個、十幾個、甚至幾十個政府單位蓋章的慘劇。
除了不能描述的一些原因,一個重要的問題是——很多部門、政府單位“各自為政”,形成了信息孤島。
還有一個軟的數(shù)據(jù)標準,數(shù)據(jù)共享的標準,數(shù)據(jù)交換的標準,以及相應的政策支持,這些工作都需要有大量的投入,大量的精力、人力,而政府沒辦法做這些事情,需要有很多的企業(yè)服務(wù)這樣的工作,為政府建立政務(wù)數(shù)據(jù)流通和交換的生態(tài)系統(tǒng)。
譚昶認為,這是訊飛能“入手”的點。
按照訊飛在某省的實踐來看,如果把數(shù)據(jù)打通了,除了可以構(gòu)建一站式政務(wù)辦理,原來分散在公安局、稅務(wù)局、工商局的各種企業(yè)數(shù)據(jù)可以進行全面融合和共享,共享后可以像對互聯(lián)網(wǎng)用戶做畫像一樣,做企業(yè)的畫像。
通過企業(yè)畫像,可以對企業(yè)間的社交關(guān)系,即投融資的關(guān)系進行分析,對企業(yè)做整體的標簽化、對企業(yè)重點的獎懲信用方面都可以做出相應的數(shù)據(jù)化分析,這些結(jié)論最后可以用于政府的監(jiān)管過程,實時監(jiān)督,聯(lián)合執(zhí)法。
他們也和運營商進行了合作,將城市的地理信息數(shù)據(jù)變成城市交通的疏導和管理工具。譚昶稱,
這樣的數(shù)據(jù),通過任意一家運營商,精確度很差,需要用很多手段把數(shù)據(jù)的精確度,變成非常精細化的軌跡的分析數(shù)據(jù),這樣的數(shù)據(jù)經(jīng)過分析之后可以得到城市的交通情況,不需要任何在線的浮動車、探頭就可以得到實時的交通情況。
還可以做更精細化的工作。在匿名化條件下的移動軌跡,如果任意選擇一個區(qū)域或者一個路口,每一個白點代表著一個移動軌跡的移動,整個移動軌跡全部整合起來后,可以看到導致路口擁堵的車輛來源于哪里,到了哪里去,它們的聚集、分析以及疏導,可以基于這樣的統(tǒng)計工作進一步展開。
除了點線,還可以發(fā)現(xiàn)人群的聚集區(qū)域有沒有發(fā)生踩踏事故的風險,提前20~40分鐘進行預警。
注:BDTC 2016 中國大數(shù)據(jù)技術(shù)大會由中國計算機學會(CCF)主辦,CCF 大數(shù)據(jù)專家委員會協(xié)辦,有大量大數(shù)據(jù)和人工智能的干貨分享。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。