AI產(chǎn)品經(jīng)理需要了解的語音交互評價指標

本文作者： hanniman

編輯：汪金紅

2017-11-24 21:04

導語：有沒有通用的標準？

雷鋒網(wǎng)注：本文作者黃釗，圖靈機器人人才戰(zhàn)略官，前騰訊產(chǎn)品經(jīng)理，5年AI實戰(zhàn)經(jīng)驗，8年互聯(lián)網(wǎng)背景，微信公眾號/知乎/在行ID“hanniman”，飯團“AI產(chǎn)品經(jīng)理大本營”，分享人工智能相關原創(chuàng)干貨。雷鋒網(wǎng)獲取授權發(fā)布。

最近，在飯團“AI產(chǎn)品經(jīng)理大本營”里，有團員提問：如何制定針對自然語言語音交互系統(tǒng)的評價體系？有沒有通用的標準？例如在車載環(huán)境中，站在用戶角度，從客觀，主觀角度的評價指標？

上周，我在專屬微信群內拋出了這個問題，當晚，@胡含、@我偏笑、@艷龍等朋友就分享了不少干貨心得；最近幾天，在@飛艷同學的協(xié)助整理下，我又補充了一些信息，最終形成這篇文章，以饗大家。

本文，具體介紹了下面5大方面的行業(yè)實戰(zhàn)評價指標：

一、語音識別
二、自然語言處理
三、語音合成
四、對話系統(tǒng)
五、整體用戶數(shù)據(jù)指標

1 語音識別ASR

語音識別（Automatic Speech Recognition），一般簡稱ASR，是將聲音轉化為文字的過程，相當于人類的耳朵。

1、識別率

看純引擎的識別率，以及不同信噪比狀態(tài)下的識別率（信噪比模擬不同車速、車窗、空調狀態(tài)等），還有在線/離線識別的區(qū)別。

實際工作中，一般識別率的直接指標是“WER（詞錯誤率，Word Error Rate）”

定義：為了使識別出來的詞序列和標準的詞序列之間保持一致，需要進行替換、刪除或者插入某些詞，這些插入、替換或刪除的詞的總個數(shù)，除以標準的詞序列中詞的總個數(shù)的百分比，即為WER。

公式為：

AI產(chǎn)品經(jīng)理需要了解的語音交互評價指標

Substitution——替換

Deletion——刪除

Insertion——插入

N——單詞數(shù)目

3點說明

1）WER可以分男女、快慢、口音、數(shù)字/英文/中文等情況，分別來看。

2）因為有插入詞，所以理論上WER有可能大于100%，但實際中、特別是大樣本量的時候，是不可能的，否則就太差了，不可能被商用。

3）站在純產(chǎn)品體驗角度，很多人會以為識別率應該等于“句子識別正確的個數(shù)/總的句子個數(shù)”，即“識別（正確）率等于96%”這種，實際工作中，這個應該指向“SER（句錯誤率，Sentence Error Rate）”，即“句子識別錯誤的個數(shù)/總的句子個數(shù)”。不過據(jù)說在實際工作中，一般句錯誤率是字錯誤率的2~3倍，所以可能就不怎么看了。

2、語音喚醒相關的指標

先需要介紹下語音喚醒（Voice Trigger，VT）的相關信息。

A）語音喚醒的需求背景：近場識別時，比如使用語音輸入法時，用戶可以按住手機上siri的語音按鈕，直接說話（結束之后松開）；近場情況下信噪比（Signal to Noise Ratio, SNR）比較高，信號清晰，簡單算法也能做到有效可靠。

但是在遠場識別時，比如在智能音箱場景，用戶不能用手接觸設備，需要進行語音喚醒，相當于叫這個AI（機器人）的名字，引起ta的注意，比如蘋果的“Hey Siri”，Google的“OK Google”，亞馬遜Echo的“Alexa”等。

B）語音喚醒的含義：簡單來說是“喊名字，引起聽者（AI）的注意”。如果語音喚醒判斷結果是正確的喚醒（激活）詞，那后續(xù)的語音就應該被識別；否則，不進行識別。

C）語音喚醒的相關指標

a）喚醒率。叫AI的時候，ta成功被喚醒的比率。

b）誤喚醒率。沒叫AI的時候，ta自己跳出來講話的比率。如果誤喚醒比較多，特別比如半夜時，智能音箱突然開始唱歌或講故事，會特別嚇人的……

c）喚醒詞的音節(jié)長度。一般技術上要求，最少3個音節(jié)，比如“OK Google”和“Alexa”有四個音節(jié)，“Hey Siri”有三個音節(jié)；國內的智能音箱，比如小雅，喚醒詞是“小雅小雅”，而不能用“小雅”——如果音節(jié)太短，一般誤喚醒率會比較高。

d）喚醒響應時間。之前看過傅盛的文章，說世界上所有的音箱，除了Echo和他們做的小雅智能音箱能達到1.5秒，其他的都在3秒以上。

e）功耗（要低）?？催^報道，說iPhone 4s出現(xiàn)Siri，但直到iPhone 6s之后才允許不接電源的情況下直接喊“Hey Siri”進行語音喚醒；這是因為有6s上有一顆專門進行語音激活的低功耗芯片，當然算法和硬件要進行配合，算法也要進行優(yōu)化。

以上a、b、d相對更重要。

D）其他

涉及AEC（語音自適應回聲消除，Automatic Echo Cancellation）的，還要考察WER相對改善情況。

2 自然語言處理NLP

自然語言處理（Natural Language Processing），一般簡稱NLP，通俗理解就是“讓計算機能夠理解和生成人類語言”。

1、準確率、召回率

附上之前文章《AI產(chǎn)品經(jīng)理需要了解的數(shù)據(jù)標注工作入門》中，分享過的一段解釋：

準確率：識別為正確的樣本數(shù)/識別出來的樣本數(shù)

召回率：識別為正確的樣本數(shù)/所有樣本中正確的數(shù)

舉個栗子：全班一共30名男生、20名女生。需要機器識別出男生的數(shù)量。本次機器一共識別出20名目標對象，其中18名為男性，2名為女性。則

精確率=18/（18+2）=0.9

召回率=18/30=0.6

再補充一個圖來解釋：

AI產(chǎn)品經(jīng)理需要了解的語音交互評價指標

2、F1值（精準率和召回率的調和平均數(shù)）

模型調優(yōu)后追求F1值提升，準確率召回率單獨下降在一個小區(qū)間內，整體F1值的增量也是分區(qū)間看（F1值在60%內，與60%以上肯定是不一樣的，90%以上可能只追求1%的提升）。

P是精準率，R是召回率，F(xiàn)a是在F1基礎上做了賦權處理：Fa=（a^2+1）PR/（a^2P+R）

3 語音合成TTS

語音合成（Text-To-Speech），一般簡稱TTS，是將文字轉化為聲音（朗讀出來），類比于人類的嘴巴。大家在Siri等各種語音助手中聽到的聲音，都是由TTS來生成的，并不是真人在說話。

主觀測試（自然度），以MOS為主：

1、MOS（Mean Opinion Scores），專家級評測（主觀）；1-5分，5分最好。

2、ABX，普通用戶評測（主觀）。讓用戶來視聽兩個TTS系統(tǒng)，進行對比，看哪個好。

客觀測試：

1、對聲學參數(shù)進行評估，一般是計算歐式距離等（RMSE，LSD）。

2、對工程上的測試：實時率（合成耗時/語音時長），流式分首包、尾包，非流式不考察首包；首包響應時間（用戶發(fā)出請求到用戶感知到的第一包到達時間）、內存占用、CPU占用、3*24小時crash率等。

4 對話系統(tǒng)

對話系統(tǒng)（Dialogue System），簡單可以理解為Siri或各種Chatbot所能支持的聊天對話體驗。

1、用戶任務達成率（表征產(chǎn)品功能是否有用以及功能覆蓋度）

1）比如智能客服，如果這個Session最終是以接入人工為結束的，那基本就說明機器的回答有問題。或者重復提供給用戶相同答案等等。

2）分專項或分意圖的統(tǒng)計就更多了，不展開了。

2、對話交互效率，比如用戶完成一個任務的耗時、回復語對信息傳遞和動作引導的效率、用戶進行語音輸入的效率等（可能和打斷，One-shot等功能相關）；具體定義，各個產(chǎn)品自己決定。

3、根據(jù)對話系統(tǒng)的類型分類，有些區(qū)別。

1）閑聊型

A）CPS（Conversations Per Session，平均單次對話輪數(shù)）。這算是微軟小冰最早期提出的指標，并且是小冰內部的（唯一）最重要指標；

B）相關性和新穎性。與原話題要有一定的相關性，但又不能是非常相似的話；

C）話題終結者。如果機器說過這句話之后，通常用戶都不會繼續(xù)接了，那這句話就會給個負分。

2）任務型

A）留存率。雖然是傳統(tǒng)的指標，但是能夠發(fā)現(xiàn)用戶有沒有形成這樣的使用習慣；留存的計算甚至可以精確到每個功能，然后進一步根據(jù)功能區(qū)做歸類，看看用戶對哪類任務的接受程度較高，還可以從用戶的問句之中分析發(fā)出指令的習慣去針對性的優(yōu)化解析和對話過程；到后面積累的特征多了，評價機制建立起來了，就可以上強化學習；比如：之前百度高考，教考生填報志愿，就是這么弄的；

B）完成度（即，前文提過的“用戶任務達成率”）。由于任務型最后總要去調一個接口或者觸發(fā)什么東西來完成任務，所以可以計算多少人進入了這個對話單元，其中有多少人最后調了接口；

C）相關的，還有（每個任務）平均slot填入輪數(shù)或填充完整度。即，完成一個任務，平均需要多少輪，平均填寫了百分之多少的槽位slot。對于槽位的基礎知識介紹，可詳見《填槽與多輪對話 | AI產(chǎn)品經(jīng)理需要了解的AI技術概念》。

3）問答型

A）最終求助人工的比例（即，前文提過的“用戶任務達成率”相關）；

B）重復問同樣問題的比例；

C）“沒答案”之類的比例。

整體來說，行業(yè)一般PR宣傳時，會更多的提CPS。其他指標看起來可能相對太瑣碎或不夠高大上，但是，實際工作中，可能CPS更多是面向閑聊型對話系統(tǒng)，而其他的場景，可能更應該從“效果”出發(fā)。比如，如果小孩子哭了，機器人能夠“哭聲安慰”，沒必要對話那么多輪次，反而應該越少越好。

4、語料自然度和人性化的程度

目前對于這類問題，一般是使用人工評估的方式進行。這里的語料，通常不是單個句子，而是分為單輪的問答對或多輪的一個session。一般來講，評分范圍是1~5分：

1分或2分：完全答非所問，以及含有不友好內容或不適合語音播報的特殊內容；

3分：基本可用，問答邏輯正確；

4分：能解決用戶問題且足夠精煉；

5分：在4分基礎上，能讓人感受到情感及人設。

另外，為了消除主觀偏差，采用多人標注、去掉極端值的方式，是當前普遍的做法。

5 整體用戶數(shù)據(jù)指標

常規(guī)互聯(lián)網(wǎng)產(chǎn)品，都會有整體的用戶指標；AI產(chǎn)品，一般也會有這個角度的考量。

1、DAU（Daily Active User，日活躍用戶數(shù)，簡稱“日活”）

在特殊場景會有變化，比如在車載場景，會統(tǒng)計“DAU占比（占車機DAU的比例）”。

2、被使用的意圖豐富度（使用率>X%的意圖個數(shù)）。

3、可嘗試通過用戶語音的情緒信息和語義的情緒分類評估滿意度。

尤其對于生氣的情緒檢測，這些對話樣本是可以挑選出來分析的。比如，有公司會統(tǒng)計語音中有多少是罵人的，以此大概了解用戶情緒。還比如，在同花順手機客戶端中，拉到最底下，有個一站式問答功能，用戶對它說“怎么登錄不上去”和說“怎么老是登錄不上去”，返回結果是不一樣的——后者，系統(tǒng)檢測到負面情緒，會提示轉接人工。

結語

本篇分享，介紹了現(xiàn)在行業(yè)內對語音交互系統(tǒng)的常見評價指標，一方面，是提供給各位AI產(chǎn)品經(jīng)理以最接地氣的相關信息；另一方面，也是希望大家基于這些指標，打造出更好的產(chǎn)品體驗效果。

雷峰網(wǎng)版權文章，未經(jīng)授權禁止轉載。詳情見轉載須知。

13人收藏

hanniman

專欄作者

前騰訊產(chǎn)品經(jīng)理，現(xiàn)圖靈機器人VP，微信公眾號/知乎/在行“hanniman”，分享人工智能領域的原創(chuàng)干貨。

發(fā)私信

當月熱門文章