1
本文作者: 萌萌的巨人 | 2015-09-22 18:54 |
編者注:我們普通人使用電腦毫無障礙,但你是否考慮過盲人以及并不熟悉技術(shù)的人的感受?正因如此,現(xiàn)在像Siri這樣的語音助手越來越多,它們讓用戶不用屏幕就能控制電腦。在圖形界面之后,我們將迎來以語音為基礎(chǔ)的會話界面,而它普通的速度可能比我們想得要快。
喬布斯的故事大家聽了很多,下面這一則你也可能聽過。他1979年參觀加州最負(fù)盛名的PARC研究中心的時候,目睹了圖標(biāo)用戶界面(GUI)的方便快捷。這種界面我們現(xiàn)在很熟悉,就是桌面上有各種圖標(biāo)和下拉菜單,然后用戶通過鼠標(biāo)來操作應(yīng)用。當(dāng)時的喬布斯覺得非常神奇,怎么電腦的頁面能夠同時打開,并且還能重疊在一起?他那時就斷言:“未來的電腦都將做到這一點”。
之后,喬布斯就致力于Apple,組織團隊模仿并不斷改善PARC研究中心的操作界面。接下來的40年,個人計算設(shè)備飛速發(fā)展,從最初的Mac到如今的iPhone。視覺頁面的方式太方便了,哪里不會點哪里,沒有了編程指令的繁瑣,這樣不懂計算機技術(shù)的人也可以使用電腦了。
不久的將來,我們就會覺得PARC的圖標(biāo)界面技術(shù)沒什么神奇的。為什么?因為還有一個團隊在創(chuàng)造更神奇的事——會話用戶界面(Conversational UI)。這些科學(xué)家預(yù)見,未來的計算機功能會很強大,用戶根本記不住那么多應(yīng)用和流程。為了避免用戶來來回回尋找應(yīng)用,計算機操作界面最好使用普通人的語言。
科學(xué)家Ron Kaplan說,與70年代相比,會話用戶界面在他們團隊的努力下,取得了長足的發(fā)展。他們整合的操作系統(tǒng)能讓用戶通過與電腦交換普通的短信息,完成機票預(yù)訂,但是目前這種技術(shù)還達不到大范圍的應(yīng)用,“成本很高,具體多少我不知道,有可能一個用戶一百萬美金”,他表示道。計算機還需更快、更智能、更高效,而要達到這個程度,Kaplan認(rèn)為要花15年。
Kaplan不僅是位出色的科學(xué)家,還是Nuance Communications的副總裁。他的公司目前占據(jù)了市場上語音界面業(yè)務(wù)的大頭,與各行各業(yè)有廣泛地合作,還幫助福特開發(fā)汽車內(nèi)置的Sync系統(tǒng)。Nuance發(fā)現(xiàn)競爭愈益激烈,亞馬遜、微軟 、Google等技術(shù)公司都在做會話用戶界面這塊,還有那些不斷成立的新公司,所有的人都希望能攀到這次變革的最前沿。各種公司都預(yù)測用不了多久,用戶就可以與技術(shù)設(shè)備對話交流了,就好像跟朋友聊天一樣,它們會傾聽你講了什么并清楚地知道你的意思。
新的技術(shù)能使數(shù)字生活進一步擴展,彌補圖標(biāo)用戶界面的不足,隨著人機交流的深入,人類與計算機的關(guān)系會更貼近。
這次變革最大的影響將會發(fā)生在不太懂計算機技術(shù)的人身上。當(dāng)年喬布斯通過圖標(biāo)用戶界面(GUI)擴展了計算機銷售市場,但要高效地運用GUI,用戶還是需要學(xué)習(xí)成本,仍然有很多人對計算機運用一竅不通。會話用戶界面就大不相同了,計算機將學(xué)著與用戶溝通交流,懂得使用計算機的人會越來越多。
其實幾年前就已經(jīng)有語音界面了,但效果一直都不好,因為手機收錄的信息很缺乏,用戶有時也就無所適從。如果你問Google Now紐約市的人口,這就很難為這個軟件了,它答不上來。要是你問帝國大廈的位置,Google Now可以說出來,但如果你問帝國大廈所在城市的人口,那它就要崩潰在你面前了。Siri也是一樣,只要問題它找不到答案,就自動建議你用Google瀏覽器查詢。這樣的會話界面效果,相信各位用戶也是呵呵了。那些我們在科幻電影里看到的計算機高科技場景,真的要埋藏在深深的腦海里了嗎?不是的。硅谷表示,時代已經(jīng)不同了。
早前,SoundHound公司的 CEO Keyvan Mohajer向記者展示過了一款新的App,該公司近10年一直在秘密開發(fā)這款應(yīng)用?;蛟S讀者熟悉SoundHound公司,是因為它的手機應(yīng)用能識別音樂,用戶只需要哼出音調(diào),它會自動識別出音調(diào)對應(yīng)的歌曲。Mohajer想創(chuàng)造世界上最好的聲音人工智能助手,這款新App的誕生,使他離夢想又進了一步。
新App名字叫做Hound,Mohajer用Nexus 5展示了它是如何運行的。他首先打開一個藍(lán)白相間的耳機圖標(biāo),然后開始問問題。起先的問題都比較簡單,比如柏林的時間、日本人口等。Mohajer在簡單問題的基礎(chǔ)上,再問需要動點“腦經(jīng)”的問題,比如,“柏林和日本相距多遠(yuǎn)?”。App也能答得上來:“大約5536英里”。
隨后Mohajer加快問問題的速度,并加深問題的難度。他讓Hound計算出售價100萬美元的房子每月月供的數(shù)額,App立即詢問他當(dāng)時的利息率及貸款方式,不一會兒就算出來了。
“太空針?biāo)ㄒ蛔?/span>著名建筑)所在國家的首都人口是多少?”他問道。Hound推測出他是在問華盛頓特區(qū)的人口,并很快給出了回答。他還連著問了很多,“日本和中國各自首都的人口及面積是多少?意大利住了多少人?德國、法國、意大利的區(qū)號分別是多少?”問題太長,他自己都快斷氣了,但Hound卻依次回答了所有問題,而且都回答正確。
按功能劃分,青少年中使用語音搜索的比例
雖然Hound還在試驗階段,但可能是目前功能最強大的語音識別系統(tǒng)。目前它能識別聲音而且速度又快,相比同類軟件而言,優(yōu)勢還是很明顯。但信息技術(shù)的世界瞬息萬變,其他軟件的趕超可能只是朝夕之事。
畢竟,對于會話界面而言,很多必要的技術(shù),基本在市面都有的賣。如今科技的方方面面都在進步,計算機處理能力、聲音識別、移動連接、云端運行、中樞網(wǎng)絡(luò)等等,這些技術(shù)越來越好,也越來越便宜,這有利于會話界面的發(fā)展和普及。
而且會話技術(shù)的發(fā)展很有必要,因為現(xiàn)在越來越多的設(shè)備都能聯(lián)網(wǎng)了,包括照明設(shè)備和火災(zāi)報警器等等,這些東西都沒有屏幕操作界面的,沒菜單、沒圖標(biāo)、甚至沒按鈕,那么就需要找到一種可以操作這些東西的方法。
另一方面,喬布斯對GUI的開發(fā)已接近極限,現(xiàn)在的屏幕操作界面都玩轉(zhuǎn)指尖,點擊圖標(biāo)或菜單就行了。但想想Photoshop和Excel,兩者處理事務(wù)的功能自不必多說,操作步驟卻很繁瑣,要用到各種快捷鍵、菜單命令還有很多陌生的工具,甚至我們連工具在哪里都不知道?!癎UI開發(fā)已達到頂點,現(xiàn)在不那么好用了”,Kaplan說道。
作為用戶,我們當(dāng)然不想被諸多頁面、各種工具搞得暈頭轉(zhuǎn)向。這也是虛擬助手市場繁榮的原因。目前生活中使用虛擬助手的情況不是很多,不過可能很快就普及了也不一定,尤其是iOS 9,Android 6.0和Windows 10系統(tǒng)的推出,會話界面將會取得較大的跨越式發(fā)展。到時,用戶就不再進入App中去尋找各種功能了,而是和Siri,Google Now或者Cortana對話。而Facebook也會推出智能助理M,用戶也會新增十多億。會話的人機交流方式將會成為主流方式,某些時候還可能是唯一可用的方式。
本來最初發(fā)展虛擬助手也是為了使復(fù)雜的操作簡單化。用Apple公司HomeKit系統(tǒng)做房屋管家,你只要說:“晚安,Siri”,家里的電器都會自動關(guān)閉,門窗也自動鎖緊。助手很了解你手機里每款應(yīng)用的功能,并且可以來回切換。而且,和助手相處時間長了,它也會慢慢總結(jié)出你的習(xí)慣,變得更了解你。
Keyvan Mohajer
但必須明確的是,會話技術(shù)并不會取代觸屏,甚至不能取代鼠標(biāo)和鍵盤。如果你很精通電腦操作,那么你寧愿保持現(xiàn)狀?;蛟S你也用虛擬助手,不過你很可能問它剪切工具在哪里。
對某些人來說,會話界面確實能給予他們GUI所不及的功能。比如,年輕人已經(jīng)開始不用鍵盤,通過手機話筒發(fā)送消息。而還有相當(dāng)一部分人根本用不了圖標(biāo)用戶界面,比如視力受損的人、老年人,以及根本不懂科技的人。Chris Maury就是其中之一。
2010年夏天,他24歲,在ImageShack實習(xí)。此時的他剛博士畢業(yè),來到硅谷實現(xiàn)夢想。上班的地方離住的地方很遠(yuǎn),早起晚睡使得他視力下降了。他去驗光師那里,被診斷為視力退化,有可能最終失明。
Maury一心想在科技方面一展抱負(fù),但現(xiàn)在不得不考慮怎么樣在看不見的情況下繼續(xù)使用電腦。其實在美國的盲人有兩千萬左右,對于這些人來說,就只能通過屏幕閱讀器來上網(wǎng)了。
屏幕閱讀器使用時,需用鍵盤操作光標(biāo)的移動,光標(biāo)每移動到一個地方,電腦就會讀出此處的內(nèi)容。屏幕閱讀系統(tǒng)花費昂貴,而且使用者要經(jīng)過一定的培訓(xùn),有的人需要兩次培訓(xùn)。在數(shù)字環(huán)境愈益發(fā)展的今天,屏幕閱讀器也越來越復(fù)雜,對學(xué)習(xí)的人來說并不容易啊。
Maury的視力越來越差了,他就只能用盲人版 Twitter了(是的,Twitter也有盲人版),活動范圍也很局限。他深刻明白,對于視力不好的人來說,使用科技是件多么惱火的事情!之后,他就有了發(fā)明聲音界面的想法,這個想法傳遍了整個硅谷。
他開始致力于將科技帶回盲人的身邊,創(chuàng)建了公司Conversant Lab,重點開發(fā)聲音相關(guān)的App和服務(wù)。Conversant首先發(fā)明的是iPhone應(yīng)用SayShopping,這款應(yīng)用能讓用戶通過語音在Target.com上購物。Maury還想今年年底之前,將會話互動的因素讓iOS開發(fā)者所用。他還想試著制造出全語音電腦環(huán)境的設(shè)備,并且希望該設(shè)備能通過頭部運動來操作指令。“這些都完全有可能,只是需要時間去制作”,他表示。
2014年秋天,亞馬遜突然推出了一款新產(chǎn)品Echo,是款圓柱形的黑色揚聲器,頂端還有一圈藍(lán)色的小燈,每次揚聲器對外“說話”時,燈都會亮。Echo使用了遠(yuǎn)距離聲音識別,即使在吵鬧的房間里,也可以定位聲音。它的目的是你可以與它對話,然后下訂單等。
這款產(chǎn)品沒有內(nèi)置的虛擬界面,所以里面并沒有什么特別的東西可看??萍济襟w對款略帶神秘的產(chǎn)品有些疑惑,有人還將它與《2001環(huán)游太空》中的神秘黑色石頭相對比。
Echo里的軟件叫Alexa,它可以預(yù)報天氣、回答客觀問題、創(chuàng)建購物清單、播放指定音樂,剛開始沒什么太特別的。但時間久了,Alexa會熟悉用戶的聲音,開始講點笑話,還會分別計時,從剛開始讓人惱火的笨機器,變成之后聰明靈活的好幫手。
這讓我們進一步認(rèn)識了會話技術(shù):會話設(shè)備只有在不斷的使用中才能慢慢與用戶建立良好的關(guān)系。各大公司也都意識到這點,所以在開發(fā)會話界面的過程中,盡量讓它們招人喜愛,賦予它們魅力及溫和的個性。比如微軟在開發(fā)Cortana的時候,就與游戲光暈背后的工作室合作,使Cortana得聲音富于變化,而不是那種干巴巴的機器讀音。雖然開發(fā)過程困難重重,但是還是很值得。因為早期Cortana什么也不會,但人們還是很喜歡。
讓虛擬助手這么討喜,還有一個戰(zhàn)略考慮。微軟,Nuance等公司一致認(rèn)為:只有當(dāng)會話助手只有無處不在,真正了解用戶,知道他的習(xí)慣、好惡的時候,才能發(fā)揮很大的作用。要達成這一目的,就要讓人工智能進入到更多應(yīng)用和設(shè)備。
亞馬遜,Google,微軟,Nuance以及SoundHound都在積極向開發(fā)者提供會話平臺,他們知道,最了解用戶的才能被留下來。所以不久的將來,我們的身邊可能會多一位值得信賴的朋友,關(guān)系的親密度不亞于閨蜜和基友喲。
via wired
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。