0
一年一度的央視315“晚會”,是一年中令企業(yè)最為“提心吊膽”的時刻。昨夜央視315欄目組曝光了多個行業(yè)存在的違規(guī)問題。醫(yī)療垃圾、危險的辣條、土雞蛋的貓膩、不衛(wèi)生的衛(wèi)生用品、家電售后服務(wù)套路多等等......其背后的產(chǎn)業(yè)鏈龐大,令人觸目驚心。其中,智能機器人騷擾電話的曝光引起了很多人的關(guān)注。
因為每一個人日常生活中都會接到各種各樣的推銷電話。地產(chǎn)、銀行貸款、培訓機構(gòu)、教育、汽車等等......但是,大部分人可能不了解,打營銷電話的可能不是真人,而是AI機器人。首先,通過探針盒子,識別到連接無限網(wǎng)絡(luò)的手機。然后,在用戶完全不知情的情況下獲取用戶的私人MAC信息。再將MAC轉(zhuǎn)換為手機號碼,與大數(shù)據(jù)相互“匹配”。再利用仿真人的AI機器人進行外呼。
這些探針盒子廣泛分布在商場、超市、辦公寫字樓、便利店等公眾場所中,隱蔽性非常強。央視曝光了多家企業(yè),整個產(chǎn)業(yè)鏈條包括智能機器人騷擾電話、大數(shù)據(jù)營銷、探針盒子,具體企業(yè)有:
壹鴿科技有限公司
陜西易龍芯科人工智能科技有限公司
中科智聯(lián)科技有限公司
璧合科技股份有限公司
聲牙科技有限公司
薩摩耶互聯(lián)網(wǎng)金融科技有限公司
深圳市秒嘀科技有限公司
上海智子信息科技有限公司
凌沃網(wǎng)絡(luò)科技有限公司
財神科技有限公司
杭州遞金網(wǎng)絡(luò)科技有限公司
央視315節(jié)目中介紹,一家公司服務(wù)一年能夠呼叫出40多億的電話。在電信行業(yè),“騷擾電話”一直不能得到根治。其背后涉及網(wǎng)絡(luò)安全、不同運營商的通信網(wǎng)絡(luò)、互聯(lián)網(wǎng)接入通信網(wǎng)絡(luò)、主叫與被叫責任等等方方面面。近年,隨著新興技術(shù)的不斷涌現(xiàn)與迭代,從早期通信行業(yè)的“呼死你”、改號軟件黑產(chǎn),已經(jīng)演變?yōu)榻裉斓腁I機器人騷擾電話,技術(shù)不斷升級。
還記得2018年,谷歌在加州召開的2018年度的開發(fā)者大會2018 Google I/O嗎?除了Android P、Gmail、Gboard、TPUv3 等眾多新產(chǎn)品。谷歌的個人助理Google Assistant中新增加了Duplex,它可以自己給飯館、發(fā)廊等商業(yè)店面打電話,幫用戶預(yù)約時間。
從大會上的展示案例可以看出,Duplex不僅可以用自然流暢的語音同人類完成了交流,不被察覺,還能夠成功地處理意外的狀況。比如,能夠回應(yīng)助詞"emm"、“uha”等、理解上下文的對話內(nèi)容,具備了主動提供語料的功能。當然,谷歌也不是世界上唯一一家實現(xiàn)這種神奇“功效”的企業(yè)。
隨后,微軟也站了出來,發(fā)布了一項技術(shù)聲明:
全雙工語音技術(shù)(Full Duplex)的意義在于,它能夠使“人機交互”進化為“人機交流”。一字之差,價值巨大。
今年4月4日,我們正式在美國和中國同步發(fā)布了Full Duplex感官,并預(yù)言行業(yè)將意識到這一技術(shù)的價值,加快向這一方向集中。我們很高興看到越來越多的同行業(yè)者加入。
其實,人類歷史上第一次與人工智能進行全雙工語音電話,并不是發(fā)生在美國,而是發(fā)生在中國。我們很榮幸能將這一桂冠奉獻給祖國。自2016年8月起,微軟(亞洲)互聯(lián)網(wǎng)工程院通過人類用戶主動發(fā)起的方式,已讓小冰與人類用戶累計完成了超過60萬通電話。
今天,我們公布其中一通發(fā)生在兩年前的實際電話錄音,將之作為珍貴的資料,奉獻給全世界說中文的華人。
谷歌Duplex背后的技術(shù)核心:其實是由TensorFlow Extended(RFX)構(gòu)建而成的一個RNN網(wǎng)絡(luò)。為了達到高精度,谷歌用匿名的電話對話數(shù)據(jù)訓練Duplex的RNN網(wǎng)絡(luò)。這個網(wǎng)絡(luò)會使用谷歌自動語音識別(ASR)的識別結(jié)果文本,同時也會使用音頻中的特征、對話歷史、對話參數(shù)(比如要預(yù)訂的服務(wù),當前時間)等等。谷歌為每一種不同的任務(wù)分別訓練了不同的理解模型,不過不同任務(wù)間也有一些訓練語料是共享的。最后,谷歌還利用TFX的超參數(shù)優(yōu)化進一步改進了模型。
輸入語音先經(jīng)過自動語音識別系統(tǒng)(ASR)處理,生成的文本會與上下文數(shù)據(jù)以及其它輸入一起輸入 RNN 網(wǎng)絡(luò),生成的應(yīng)答文本再通過文本轉(zhuǎn)語音(TTS)系統(tǒng)讀出來。
谷歌聯(lián)合使用了一個級聯(lián)TTS引擎和一個生成式TTS引擎(其中使用了Tacotron和WaveNet),根據(jù)不同的情境控制語音的語調(diào)。這個系統(tǒng)還可以生成一些語氣詞(比如“hmmm”、“uh”),這也讓語音變得更自然。
當級聯(lián)TTS需要組合變化很大的語音單元,或者需要增加生成的停頓時,語氣詞就會被添加到生成的語音中,這就讓這個系統(tǒng)可以以一種自然的方式向?qū)Ψ绞疽狻笆堑模艺诼犞被蛘摺拔疫€在考慮”(人類說話的時候就經(jīng)常在思考的同時發(fā)出一些語氣詞)。谷歌的用戶調(diào)查也確認了人類覺得帶有語氣詞的對話更熟悉、更自然。另一方面,系統(tǒng)的延遲也要能夠符合人類的說話特點。在某些情況下,系統(tǒng)甚至會采用快速逼近模型。使得系統(tǒng)達到100ms以內(nèi)的延遲。
而從微軟的技術(shù)聲明中,也可看出,微軟的所謂全雙工語音交互技術(shù)Full-Deplex Voice和谷歌的Duplex在技術(shù)方面,應(yīng)該是極其相似的。只不過,微軟使用的生成模型是LSTM,而谷歌采用的是RNN網(wǎng)絡(luò)。
正如微軟所言,“其實,人類歷史上第一次與人工智能進行全雙工語音電話,并不是發(fā)生在美國,而是發(fā)生在中國?!睙o論是谷歌還是微軟的應(yīng)用場景可以看出,研究“人機交流”的初始目的是好的,即讓人們從單一、簡單、無技術(shù)含量的勞動中解脫出來。只不過目前,國內(nèi)基于人工智能的全雙工語音電話,被一些企業(yè)應(yīng)用于灰度地帶,導致騷擾電話“泛濫成災(zāi)”。那么,國內(nèi)曝光的這些公司都采用了哪些技術(shù)呢?
為此,雷鋒網(wǎng)采訪了科大訊飛AI研究院副院長王士進。王士進對雷鋒網(wǎng)表示,AI對話機器人是一種主要應(yīng)用于服務(wù)場景的人機交互系統(tǒng),其后臺主要涉及語音識別、語義理解、對話問答、語音合成、知識圖譜等多項AI核心技術(shù),另外還需要流程控制、電話交換平臺、通訊線路等工程技術(shù)支撐。
電話是一種典型的人機交互應(yīng)用場景,除此之外還有微信、網(wǎng)頁、APP等場景。電話場景下的交互屬于實時雙向交互,且由于電話信道音頻音質(zhì)相對較差、信息載體單一,總體來說其技術(shù)復雜度較高。
國內(nèi)曝光的這些企業(yè)一般沒有AI核心技術(shù),其系統(tǒng)后臺經(jīng)常是調(diào)用其他AI公司的開放平臺能力。從技術(shù)上來看,電銷機器人用到的智能語音技術(shù)是非常初級的,主要就是將本來由人說的話變?yōu)殡娔X來播出,以及調(diào)用一些簡單的語音識別技術(shù)。
但這些公司往往對這部分功能選擇自己錄音來替代解決,這并不智能,卻更簡單更便宜。目前,谷歌、微軟以及國內(nèi)訊飛、阿里等企業(yè),具備較為全面的核心AI技術(shù)能力,電話對話機器人也是這些能力的一種典型應(yīng)用。
科大訊飛目前的電話機器人技術(shù),主要用于行業(yè)客服、電話訂餐、物流下單等場景,專注解決智能服務(wù)領(lǐng)域的問題,提升效率,降低成本,具有顯著的應(yīng)用價值。對于真正購買服務(wù)的客戶,科大訊飛在協(xié)議中寫明不得用于“騷擾電話”等違規(guī)用途的呼出,一經(jīng)發(fā)現(xiàn),立刻終止服務(wù)。市面上很多號稱“使用了科大訊飛的服務(wù)”的電話銷售機器人公司經(jīng)查詢后,發(fā)現(xiàn)并不是訊飛的客戶,只是打著訊飛的招牌。
中國經(jīng)濟處于快速發(fā)展中,且社會和大眾對于新興技術(shù)的應(yīng)用處于相對寬容的態(tài)度,所以在商業(yè)利益的驅(qū)動下,相對容易出現(xiàn)一些技術(shù)應(yīng)用倫理的問題。我們認為專門打“騷擾電話”的電銷機器人不是一個技術(shù)問題,而是社會倫理問題。
如果把AI技術(shù)比作一種武器,其最終作用的好壞,取決于使用它的人以及使用的方式。不應(yīng)該為了追求商業(yè)利益,損害部分人的利益,包括商業(yè)的利益以及個人隱私的其他權(quán)益,應(yīng)該追求打造共贏的商業(yè)邏輯。這需要社會和產(chǎn)業(yè)界共同來倡導價值創(chuàng)造理念,并通過更多的法律法規(guī)來加強規(guī)范和監(jiān)督。
去年11月,工信部公布了《關(guān)于推進綜合整治騷擾電話專項行動的工作方案》,對騷擾電話產(chǎn)業(yè)問題重錘整治并作嚴格規(guī)范。隨著人工智能技術(shù)的快速發(fā)展和應(yīng)用,電話對話機器人的可用度有了很大的提升,在智能服務(wù)、金融、物流、醫(yī)療等很多領(lǐng)域得到了快速應(yīng)用,也產(chǎn)生了巨大的社會和經(jīng)濟效益。
王士進認為這種系統(tǒng)應(yīng)該優(yōu)先應(yīng)用在存在較多人工重復工作的服務(wù)溝通場景,用來解放人的精力去做更有價值的事情。例如智能服務(wù)、金融、教育、醫(yī)療等領(lǐng)域的客戶服務(wù)或咨詢服務(wù),比如快遞小哥派送包裹時與客戶的信息確認,醫(yī)院或社區(qū)對于病人的例行回訪等。
雷鋒網(wǎng)認為,如今人工智能已經(jīng)不僅是一門科學和一個產(chǎn)業(yè),更涉及到了社會生活的方方面面。很有可能改變就業(yè)結(jié)構(gòu)、沖擊法律與社會倫理、侵犯個人隱私、挑戰(zhàn)國際關(guān)系準則等問題。其中的安全風險挑戰(zhàn),未來怎樣安全、可靠、可控發(fā)展。背后的倫理約束,一直是世界各國所關(guān)注的問題。
今年兩會期間,百度李彥宏也提出,需要從一個社會,一個政府和公眾的角度來考慮,在人工智能技術(shù)的發(fā)展道路上什么是應(yīng)該做的,什么是不應(yīng)該做的,什么是好的,什么是壞的。應(yīng)該及早地把它做一些規(guī)范,做一些預(yù)判,盡量避免人工智能向不好的方向發(fā)展。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。