央視315曝光的AI機(jī)器人推銷(xiāo)電話公司，采用了什么核心技術(shù)？

本文作者：趙晨希

2019-03-16 21:50

導(dǎo)語(yǔ)：每一個(gè)人日常生活中都會(huì)接到各種各樣的推銷(xiāo)電話。

一年一度的央視315“晚會(huì)”，是一年中令企業(yè)最為“提心吊膽”的時(shí)刻。昨夜央視315欄目組曝光了多個(gè)行業(yè)存在的違規(guī)問(wèn)題。醫(yī)療垃圾、危險(xiǎn)的辣條、土雞蛋的貓膩、不衛(wèi)生的衛(wèi)生用品、家電售后服務(wù)套路多等等......其背后的產(chǎn)業(yè)鏈龐大，令人觸目驚心。其中，智能機(jī)器人騷擾電話的曝光引起了很多人的關(guān)注。

因?yàn)槊恳粋€(gè)人日常生活中都會(huì)接到各種各樣的推銷(xiāo)電話。地產(chǎn)、銀行貸款、培訓(xùn)機(jī)構(gòu)、教育、汽車(chē)等等......但是，大部分人可能不了解，打營(yíng)銷(xiāo)電話的可能不是真人，而是AI機(jī)器人。首先，通過(guò)探針盒子，識(shí)別到連接無(wú)限網(wǎng)絡(luò)的手機(jī)。然后，在用戶完全不知情的情況下獲取用戶的私人MAC信息。再將MAC轉(zhuǎn)換為手機(jī)號(hào)碼，與大數(shù)據(jù)相互“匹配”。再利用仿真人的AI機(jī)器人進(jìn)行外呼。

這些探針盒子廣泛分布在商場(chǎng)、超市、辦公寫(xiě)字樓、便利店等公眾場(chǎng)所中，隱蔽性非常強(qiáng)。央視曝光了多家企業(yè)，整個(gè)產(chǎn)業(yè)鏈條包括智能機(jī)器人騷擾電話、大數(shù)據(jù)營(yíng)銷(xiāo)、探針盒子，具體企業(yè)有：

壹鴿科技有限公司
陜西易龍芯科人工智能科技有限公司
中科智聯(lián)科技有限公司
璧合科技股份有限公司
聲牙科技有限公司
薩摩耶互聯(lián)網(wǎng)金融科技有限公司
深圳市秒嘀科技有限公司
上海智子信息科技有限公司
凌沃網(wǎng)絡(luò)科技有限公司
財(cái)神科技有限公司
杭州遞金網(wǎng)絡(luò)科技有限公司

央視315節(jié)目中介紹，一家公司服務(wù)一年能夠呼叫出40多億的電話。在電信行業(yè)，“騷擾電話”一直不能得到根治。其背后涉及網(wǎng)絡(luò)安全、不同運(yùn)營(yíng)商的通信網(wǎng)絡(luò)、互聯(lián)網(wǎng)接入通信網(wǎng)絡(luò)、主叫與被叫責(zé)任等等方方面面。近年，隨著新興技術(shù)的不斷涌現(xiàn)與迭代，從早期通信行業(yè)的“呼死你”、改號(hào)軟件黑產(chǎn)，已經(jīng)演變?yōu)榻裉斓腁I機(jī)器人騷擾電話，技術(shù)不斷升級(jí)。

國(guó)外相似的案例分析

還記得2018年，谷歌在加州召開(kāi)的2018年度的開(kāi)發(fā)者大會(huì)2018 Google I/O嗎？除了Android P、Gmail、Gboard、TPUv3 等眾多新產(chǎn)品。谷歌的個(gè)人助理Google Assistant中新增加了Duplex，它可以自己給飯館、發(fā)廊等商業(yè)店面打電話，幫用戶預(yù)約時(shí)間。

從大會(huì)上的展示案例可以看出，Duplex不僅可以用自然流暢的語(yǔ)音同人類(lèi)完成了交流，不被察覺(jué)，還能夠成功地處理意外的狀況。比如，能夠回應(yīng)助詞"emm"、“uha”等、理解上下文的對(duì)話內(nèi)容，具備了主動(dòng)提供語(yǔ)料的功能。當(dāng)然，谷歌也不是世界上唯一一家實(shí)現(xiàn)這種神奇“功效”的企業(yè)。

隨后，微軟也站了出來(lái)，發(fā)布了一項(xiàng)技術(shù)聲明：

全雙工語(yǔ)音技術(shù)（Full Duplex）的意義在于，它能夠使“人機(jī)交互”進(jìn)化為“人機(jī)交流”。一字之差，價(jià)值巨大。

今年4月4日，我們正式在美國(guó)和中國(guó)同步發(fā)布了Full Duplex感官，并預(yù)言行業(yè)將意識(shí)到這一技術(shù)的價(jià)值，加快向這一方向集中。我們很高興看到越來(lái)越多的同行業(yè)者加入。

其實(shí)，人類(lèi)歷史上第一次與人工智能進(jìn)行全雙工語(yǔ)音電話，并不是發(fā)生在美國(guó)，而是發(fā)生在中國(guó)。我們很榮幸能將這一桂冠奉獻(xiàn)給祖國(guó)。自2016年8月起，微軟（亞洲）互聯(lián)網(wǎng)工程院通過(guò)人類(lèi)用戶主動(dòng)發(fā)起的方式，已讓小冰與人類(lèi)用戶累計(jì)完成了超過(guò)60萬(wàn)通電話。

今天，我們公布其中一通發(fā)生在兩年前的實(shí)際電話錄音，將之作為珍貴的資料，奉獻(xiàn)給全世界說(shuō)中文的華人。

谷歌Duplex背后的技術(shù)核心：其實(shí)是由TensorFlow Extended（RFX）構(gòu)建而成的一個(gè)RNN網(wǎng)絡(luò)。為了達(dá)到高精度，谷歌用匿名的電話對(duì)話數(shù)據(jù)訓(xùn)練Duplex的RNN網(wǎng)絡(luò)。這個(gè)網(wǎng)絡(luò)會(huì)使用谷歌自動(dòng)語(yǔ)音識(shí)別（ASR）的識(shí)別結(jié)果文本，同時(shí)也會(huì)使用音頻中的特征、對(duì)話歷史、對(duì)話參數(shù)（比如要預(yù)訂的服務(wù)，當(dāng)前時(shí)間）等等。谷歌為每一種不同的任務(wù)分別訓(xùn)練了不同的理解模型，不過(guò)不同任務(wù)間也有一些訓(xùn)練語(yǔ)料是共享的。最后，谷歌還利用TFX的超參數(shù)優(yōu)化進(jìn)一步改進(jìn)了模型。

央視315曝光的AI機(jī)器人推銷(xiāo)電話公司，采用了什么核心技術(shù)？

輸入語(yǔ)音先經(jīng)過(guò)自動(dòng)語(yǔ)音識(shí)別系統(tǒng)（ASR）處理，生成的文本會(huì)與上下文數(shù)據(jù)以及其它輸入一起輸入 RNN 網(wǎng)絡(luò)，生成的應(yīng)答文本再通過(guò)文本轉(zhuǎn)語(yǔ)音（TTS）系統(tǒng)讀出來(lái)。

谷歌聯(lián)合使用了一個(gè)級(jí)聯(lián)TTS引擎和一個(gè)生成式TTS引擎（其中使用了Tacotron和WaveNet），根據(jù)不同的情境控制語(yǔ)音的語(yǔ)調(diào)。這個(gè)系統(tǒng)還可以生成一些語(yǔ)氣詞（比如“hmmm”、“uh”），這也讓語(yǔ)音變得更自然。

當(dāng)級(jí)聯(lián)TTS需要組合變化很大的語(yǔ)音單元，或者需要增加生成的停頓時(shí)，語(yǔ)氣詞就會(huì)被添加到生成的語(yǔ)音中，這就讓這個(gè)系統(tǒng)可以以一種自然的方式向?qū)Ψ绞疽狻笆堑?，我正在?tīng)著”或者“我還在考慮”（人類(lèi)說(shuō)話的時(shí)候就經(jīng)常在思考的同時(shí)發(fā)出一些語(yǔ)氣詞）。谷歌的用戶調(diào)查也確認(rèn)了人類(lèi)覺(jué)得帶有語(yǔ)氣詞的對(duì)話更熟悉、更自然。另一方面，系統(tǒng)的延遲也要能夠符合人類(lèi)的說(shuō)話特點(diǎn)。在某些情況下，系統(tǒng)甚至?xí)捎每焖俦平Ｐ?。使得系統(tǒng)達(dá)到100ms以內(nèi)的延遲。

而從微軟的技術(shù)聲明中，也可看出，微軟的所謂全雙工語(yǔ)音交互技術(shù)Full-Deplex Voice和谷歌的Duplex在技術(shù)方面，應(yīng)該是極其相似的。只不過(guò)，微軟使用的生成模型是LSTM，而谷歌采用的是RNN網(wǎng)絡(luò)。

正如微軟所言，“其實(shí)，人類(lèi)歷史上第一次與人工智能進(jìn)行全雙工語(yǔ)音電話，并不是發(fā)生在美國(guó)，而是發(fā)生在中國(guó)?！睙o(wú)論是谷歌還是微軟的應(yīng)用場(chǎng)景可以看出，研究“人機(jī)交流”的初始目的是好的，即讓人們從單一、簡(jiǎn)單、無(wú)技術(shù)含量的勞動(dòng)中解脫出來(lái)。只不過(guò)目前，國(guó)內(nèi)基于人工智能的全雙工語(yǔ)音電話，被一些企業(yè)應(yīng)用于灰度地帶，導(dǎo)致騷擾電話“泛濫成災(zāi)”。那么，國(guó)內(nèi)曝光的這些公司都采用了哪些技術(shù)呢？

專(zhuān)家解讀背后的技術(shù)與倫理規(guī)范

為此，雷鋒網(wǎng)采訪了科大訊飛AI研究院副院長(zhǎng)王士進(jìn)。王士進(jìn)對(duì)雷鋒網(wǎng)表示，AI對(duì)話機(jī)器人是一種主要應(yīng)用于服務(wù)場(chǎng)景的人機(jī)交互系統(tǒng)，其后臺(tái)主要涉及語(yǔ)音識(shí)別、語(yǔ)義理解、對(duì)話問(wèn)答、語(yǔ)音合成、知識(shí)圖譜等多項(xiàng)AI核心技術(shù)，另外還需要流程控制、電話交換平臺(tái)、通訊線路等工程技術(shù)支撐。

電話是一種典型的人機(jī)交互應(yīng)用場(chǎng)景，除此之外還有微信、網(wǎng)頁(yè)、APP等場(chǎng)景。電話場(chǎng)景下的交互屬于實(shí)時(shí)雙向交互，且由于電話信道音頻音質(zhì)相對(duì)較差、信息載體單一，總體來(lái)說(shuō)其技術(shù)復(fù)雜度較高。

國(guó)內(nèi)曝光的這些企業(yè)一般沒(méi)有AI核心技術(shù)，其系統(tǒng)后臺(tái)經(jīng)常是調(diào)用其他AI公司的開(kāi)放平臺(tái)能力。從技術(shù)上來(lái)看，電銷(xiāo)機(jī)器人用到的智能語(yǔ)音技術(shù)是非常初級(jí)的，主要就是將本來(lái)由人說(shuō)的話變?yōu)殡娔X來(lái)播出，以及調(diào)用一些簡(jiǎn)單的語(yǔ)音識(shí)別技術(shù)。

但這些公司往往對(duì)這部分功能選擇自己錄音來(lái)替代解決，這并不智能，卻更簡(jiǎn)單更便宜。目前，谷歌、微軟以及國(guó)內(nèi)訊飛、阿里等企業(yè)，具備較為全面的核心AI技術(shù)能力，電話對(duì)話機(jī)器人也是這些能力的一種典型應(yīng)用。

科大訊飛目前的電話機(jī)器人技術(shù)，主要用于行業(yè)客服、電話訂餐、物流下單等場(chǎng)景，專(zhuān)注解決智能服務(wù)領(lǐng)域的問(wèn)題，提升效率，降低成本，具有顯著的應(yīng)用價(jià)值。對(duì)于真正購(gòu)買(mǎi)服務(wù)的客戶，科大訊飛在協(xié)議中寫(xiě)明不得用于“騷擾電話”等違規(guī)用途的呼出，一經(jīng)發(fā)現(xiàn)，立刻終止服務(wù)。市面上很多號(hào)稱(chēng)“使用了科大訊飛的服務(wù)”的電話銷(xiāo)售機(jī)器人公司經(jīng)查詢后，發(fā)現(xiàn)并不是訊飛的客戶，只是打著訊飛的招牌。

中國(guó)經(jīng)濟(jì)處于快速發(fā)展中，且社會(huì)和大眾對(duì)于新興技術(shù)的應(yīng)用處于相對(duì)寬容的態(tài)度，所以在商業(yè)利益的驅(qū)動(dòng)下，相對(duì)容易出現(xiàn)一些技術(shù)應(yīng)用倫理的問(wèn)題。我們認(rèn)為專(zhuān)門(mén)打“騷擾電話”的電銷(xiāo)機(jī)器人不是一個(gè)技術(shù)問(wèn)題，而是社會(huì)倫理問(wèn)題。

如果把AI技術(shù)比作一種武器，其最終作用的好壞，取決于使用它的人以及使用的方式。不應(yīng)該為了追求商業(yè)利益，損害部分人的利益，包括商業(yè)的利益以及個(gè)人隱私的其他權(quán)益，應(yīng)該追求打造共贏的商業(yè)邏輯。這需要社會(huì)和產(chǎn)業(yè)界共同來(lái)倡導(dǎo)價(jià)值創(chuàng)造理念，并通過(guò)更多的法律法規(guī)來(lái)加強(qiáng)規(guī)范和監(jiān)督。

去年11月，工信部公布了《關(guān)于推進(jìn)綜合整治騷擾電話專(zhuān)項(xiàng)行動(dòng)的工作方案》，對(duì)騷擾電話產(chǎn)業(yè)問(wèn)題重錘整治并作嚴(yán)格規(guī)范。隨著人工智能技術(shù)的快速發(fā)展和應(yīng)用，電話對(duì)話機(jī)器人的可用度有了很大的提升，在智能服務(wù)、金融、物流、醫(yī)療等很多領(lǐng)域得到了快速應(yīng)用，也產(chǎn)生了巨大的社會(huì)和經(jīng)濟(jì)效益。

王士進(jìn)認(rèn)為這種系統(tǒng)應(yīng)該優(yōu)先應(yīng)用在存在較多人工重復(fù)工作的服務(wù)溝通場(chǎng)景，用來(lái)解放人的精力去做更有價(jià)值的事情。例如智能服務(wù)、金融、教育、醫(yī)療等領(lǐng)域的客戶服務(wù)或咨詢服務(wù)，比如快遞小哥派送包裹時(shí)與客戶的信息確認(rèn)，醫(yī)院或社區(qū)對(duì)于病人的例行回訪等。

總結(jié)

雷鋒網(wǎng)認(rèn)為，如今人工智能已經(jīng)不僅是一門(mén)科學(xué)和一個(gè)產(chǎn)業(yè)，更涉及到了社會(huì)生活的方方面面。很有可能改變就業(yè)結(jié)構(gòu)、沖擊法律與社會(huì)倫理、侵犯?jìng)€(gè)人隱私、挑戰(zhàn)國(guó)際關(guān)系準(zhǔn)則等問(wèn)題。其中的安全風(fēng)險(xiǎn)挑戰(zhàn)，未來(lái)怎樣安全、可靠、可控發(fā)展。背后的倫理約束，一直是世界各國(guó)所關(guān)注的問(wèn)題。

今年兩會(huì)期間，百度李彥宏也提出，需要從一個(gè)社會(huì)，一個(gè)政府和公眾的角度來(lái)考慮，在人工智能技術(shù)的發(fā)展道路上什么是應(yīng)該做的，什么是不應(yīng)該做的，什么是好的，什么是壞的。應(yīng)該及早地把它做一些規(guī)范，做一些預(yù)判，盡量避免人工智能向不好的方向發(fā)展。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

4人收藏

相關(guān)文章

趙晨希

編輯

簡(jiǎn)單是終極的復(fù)雜。WeChat：chenxi252516

發(fā)私信

當(dāng)月熱門(mén)文章

央視315曝光的AI機(jī)器人推銷(xiāo)電話公司，采用了什么核心技術(shù)？

國(guó)外相似的案例分析

專(zhuān)家解讀背后的技術(shù)與倫理規(guī)范

總結(jié)

央視315曝光的AI機(jī)器人推銷(xiāo)電話公司，采用了什么核心技術(shù)？