0
本文作者: 肖漫 | 2019-07-16 18:46 | 專題:CCF-GAIR 2019 |
雷鋒網按:7 月 12 日-7 月 14 日,2019 第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)于深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協(xié)辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業(yè)界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。
語音技術的演進和 IoT 時代的到來將會發(fā)生有趣的碰撞,芯片的進步會提升了二者的結合。在 CCF-GAIR 2019 AI 芯片專場,深聰智能 CTO 朱澄宇帶來了關于端側芯片的分享,演講主題為《端側專用芯片-- AI 算法的理想載體》。
深聰智能 CTO 朱澄宇
朱澄宇在演講時表示,語音技術的演進和 IoT 時代的到來某種程度上可以說是一種天作之合,這兩個技術必定是未來十年增長的亮點,特別是在芯片領域。
他同時指出,如果使用第三方通用芯片,產品研發(fā)與 AI 市場需求、AI 算法、AI 數據不能形成閉環(huán),如果沒有閉環(huán)就不能形成生態(tài),不利于把這塊蛋糕做大,這些問題的存在讓思必馳最終決定成立一家公司專門做芯片。
值得注意的是,朱澄宇強調,思必馳做芯片不是趕時髦,而是出于市場需求、技術以及算法能力三方面因素,具有長遠規(guī)劃。
雷鋒網此前報道,思必馳在今年一月份發(fā)布了第一代 AI 語音芯片 TAIHANG。關于思必馳芯片的功耗,朱澄宇在會后接受雷鋒網采訪時表示:“相比通用芯片,思必馳芯片能降低 5 到 10 倍的能源消耗?!?/p>
他在演講中提到,思必馳芯片+算法的軟硬結合方案將會給用戶帶來非常好的體驗,不僅能夠聽得清和聽得懂,還有很高的識別率和快速的反應,能夠實現非常低的功耗。不僅如此,軟硬結合的方案也具備多種接口,可以做很多擴展。更重要的是,與通用芯片相比,因為不需要移植,能夠讓產品更快上市。
據了解,思必馳第二代芯片將解決本地語音識別的問題,增加安全、聲紋特性,會采取更深度的融合,從算法到基礎 IP 都做專門的優(yōu)化,達到更好的目的。再下一代芯片,會考慮多模態(tài)以及進行存儲、工藝、封裝的優(yōu)化。
另外,朱澄宇還在采訪中表示,思必馳芯片業(yè)務采用“芯片+算法”方案。他還說道,不擔心思必馳芯片的落地,因為思必馳的芯片一開始就是照著落地來的,是看到了 AI 芯片的市場,清楚客戶的需求而進行的研發(fā)。
雷鋒網了解到,思必馳的芯片當前已經有在洽談的合作伙伴。
目前,深聰智能(雷鋒網注:深聰智能是思必馳與中芯國際下屬投資公司中芯聚源成立的合資公司)第一代自研芯片已經量產,這是否意味著思必馳會減少 AI 語音芯片的購買?朱澄宇對雷鋒網表示,盡管目前思必馳已經自研芯片,但并不會減少對其它芯片的購買。他提到:“市場是需要共同開拓的,思必馳做芯片的目的不是為了競爭,而是看到芯片市場方向?!?/strong>對于首次推出芯片,他表示想要覆蓋盡可能多的用戶群,嘗試盡可能多的領域,且今后會推出更多版本,更加精準定位市場。
最后,關于芯片的后續(xù)發(fā)展,朱澄宇在采訪中表示,深聰智能依然會根據實際需求以及算法能力,腳踏實地一步步往前走,慢慢定義下一代芯片,在算法上進行優(yōu)化,把效果做得更好,能耗更低。
另外,他還表示,目前深聰智能依然以思必馳的芯片為主,但同時,深聰智能是一家開放的公司,關于與其它算法公司的合作,深聰智能也將持開放態(tài)度。
以下是朱澄宇在 CCF-GAIR 大會上的演講內容,雷鋒網對其進行了不改變原意的編輯整理:
很高興有機會跟大家分享思必馳以及思必馳下屬公司深聰對 AI 芯片的想法,也分享一下我們目前的成果,我這邊的題目是《端側專用芯片-- AI 算法的理想載體》。
現在已經到了人機語音交互與 IoT 時代,我們應該怎么走?先看一下人機語音交互,我以前一直是做芯片的,做了二十多年。做人機語音交互,特別是做 IoT 的芯片,其實是第一回。從傳統(tǒng)的角度來說,做芯片習慣問帶寬有多少,人講話要從芯片帶寬的角度來說是很低很低的,大概只有幾 bit,這是很低的頻率。
為什么這個東西這么重要?我們可以看到,人與人的交互不光是你字面上講的幾句話,很多時候還包括深層次的含義。如果從人機語音交互整個過程來看,首先要聽得清,因為會有各種各樣的場景,比如說有很多的噪聲、有很多人同時在講話,所以要知道你關注的對象在講什么,先聽清楚;二是要聽明白、聽得懂講什么;三是理解它的意義。
很多時候,我們講話有表情,而且還有其他的含義在里面。在人與人交流、機器與人交流的時候也要有合理的識別,還要用合適的方式可以表達出來,因為人跟人、人跟機器語音方面的交互不是一個來回,而是多輪次的交流。用人的聲音表達出來,人機領域的交互還是非常廣泛的。最近十多年來人機語音交互取得了很大的進展,很大程度也受益于 AI 技術的發(fā)展,特別是這幾年,人機語音交互逐漸走向成熟。
今天上午演講嘉賓也講到,未來十年是 IoT、AIoT 的時代,基本上平常看到的、使用的物件都會聯(lián)網。早上我聽到一個嘉賓說,平均一個人有一百多樣東西受你控制。那么問題來了,那么多東西受我控制,我怎么控制它?比如說用手機控制,一百多樣東西,我要翻半天,我還不一定找到我想要的東西。所以大家覺得語音是最自然的方式,可以對將來所有要控制的端側器件控制最最自然的方式進行交互。
語音技術的演進和 IoT 時代的到來,這兩個正好發(fā)生了有趣的碰撞,某種程度上可以說是一種天作之合,這兩個技術必定是未來十年增長的亮點,特別是在芯片這塊。呼應一下包教授(雷鋒網注:中科院計算所包云崗)剛才講的,我們也是看到軟件定義芯片時代的來臨。我們可以看到,AI 的技術離不開芯片的發(fā)展。
AI 在上世紀六十年代就已經開始提出,期間也經歷了幾起幾落。在低潮的時候,我聽說很多學校里的學生、教授都不好意思說自己是做 AI 的,因為大家覺得 AI 沒有前途。隨著芯片技術的發(fā)展,特別是摩爾定律,芯片的 Computing Power 以指數級的增加挽救了 AI,當然 AI 也不斷有新的技術出來;兩方面同時的演進讓 AI 的技術逐漸可以開始落地、可以真正的應用。
剛才包教授提到了 ICC 的會,我每年也去,我也看到同樣的趨勢。以前在會里唱主角的都是傳統(tǒng)芯片公司,英特爾、TI 等是會上的主角。近幾年,我們看到主角慢慢在轉換,除了傳統(tǒng)的芯片公司,一類是包教授說的學校,另外一類就是互聯(lián)網公司,包括 Google、Microsoft、亞馬遜。隨著 AI 的發(fā)展,不斷有更多軟件、算法公司進入芯片行業(yè),為芯片行業(yè)帶來新的活力。
這是思必馳以及深聰對于做芯片的看法。思必馳傳統(tǒng)是一家算法公司,不斷把算法移植到不同的芯片、不同的平臺上,在移植的過程中有很多用起來不方便、不爽的地方。其實是看到了三個問題,如果用第三方通用的芯片:
算法不能形成閉環(huán)。有的時候算法跟芯片之間不能有非常好的默契,要么芯片覺得缺個角、要么內存不夠,或者不得不選擇更加高端的芯片,這樣成本又會升高,會有這樣的問題。
跟 AI 的數據不能形成閉環(huán)。如果沒有閉環(huán)就不能形成生態(tài),不利于把這塊蛋糕做大。
市場。芯片公司對于最終的用戶不是直接的用戶,導致對市場的存在以及市場的預判就會差一點。不像軟件公司、算法公司,因為是直接客戶會有很多這方面的信息。
這些問題的存在驅使思必馳決定成立一家公司專門做芯片,這是思必馳和深聰的布局。思必馳是語音、算法全鏈路的布局,現在芯片進來以后,可以說把整個產業(yè)鏈全部打通,專注地利用算法做專用的芯片,把算法和芯片融合在一起,同時為客戶帶來最好的體驗和最好的價值。我們也可以通過定制化的架構,逐漸取代第三方的通用架構,后面我也會講到采用專用的架構在成本、功耗方面會帶來很大的好處。
前面幾位嘉賓也講到,設計芯片隨著代工廠、EDA 工具以及 IP 廠商的存在,現在門檻也在逐漸的降低,所以一旦芯片有好的架構、有好的定義,后面的執(zhí)行相對來說難度沒以前那么高。
在行業(yè)里,做芯片一般分為云端和邊緣端側,思必馳選擇的是端側。這邊有一個圖,我跟大家講一下,最早大家知道電腦都是共用的計算資源,后來發(fā)展成為 PC。最近十幾二十年,Mobile Computing 又放到云端,我們可以看到 2020 年之后趨勢又慢慢會移到端側。雖然大家一直在說云端、公有、共享,但從人的本性來說,這些共有、共享并不屬于人的本性,人還是希望是本地化,公有和共享只是在資源不足情況下的權宜之計。
Computing Power 是很珍貴的,不可能個人擁有,隨著摩爾定律的發(fā)展,可以逐漸發(fā)生改變。后來出現了 Mobile,因為它的供電、體積所限 Computing Power 不夠,會逐漸發(fā)生改變。包教授講到通過軟硬結合的方法,里面還是有成百上千倍的空間,可以把 Computing Power 提高。端側的容量大、另外是實施性好、可靠性強,這是我們看好的方向,也是我們做芯片的側重點。
下面花點時間講一下我們在這方面的芯片方案。就像前面講到的,我們的芯片不僅是芯片,而是芯片+算法整合的方案。如果你們從我們公司買芯片,不光會買到芯片,里面也會內帶思必馳的算法。
從用戶的角度會看到有一個非常良好的體驗;如果是語音交互的話,大家會關注能不能聽得清,有噪聲聽不聽得清,我們的方案在這方面都有非常好的表現。另外是聽不聽得懂,我們有很高的識別率和很快的反應,一叫它就能有反應。在你不希望跟他講話的時候,他跟你講話,這也是比較嚇人的。
二是比較低的功耗。因為應用的場景不光是插電的,而且是 mobile 的,所以只有低功耗的芯片、低功耗的方案才能做到。外面的音響做不到低功耗,它是一直插電,摸起來還有點熱,而我們的方案基本上可以做到用電池操作。
三是成本。我們芯片的成本和算法是匹配的,跟通用芯片相比也會有點優(yōu)勢。另外是時間成本,要開發(fā)具備語音交互的設備,我們的算法和芯片是集成在一起,不需要到系統(tǒng)上移植,可以比競爭對手更早地上市。
四是實用性。我們有多種的接口,還可以做很多的擴展,這是我們芯片+算法的方案,可以為大家?guī)砹己玫捏w驗。我們的目標是讓身邊所有的設備都可以用語音進行交互,使用我們的方案就可以達到這個目的。
我們做芯片不是短期的趕時髦,我們也有長遠的規(guī)劃。我們的第一代芯片量產的同時也會有下一代、再下一代的規(guī)劃。我們的角度更希望從能力的方面定義我們的芯片和方案。
第一代芯片,解決關鍵字和指令的識別。比如說你喊一聲你好小樂,打開空調,他會做一些反應,這是第一代芯片的能力。剛才說到軟硬融合,軟件一直到硬件,某種程度是從左邊到右邊,它是整個一條鏈路,從最左邊的語音算法開始,算法基本上是一堆共識,下一個是 C 代碼,下面是芯片架構,是不是用 DSP,是不是用 ARM 的 CPU。再就是它的物理實現,下面就有基礎 IP 存儲、工藝、封裝。第一代芯片主要是實現關鍵字和指令的識別,我們的語音融合方式也是比較淺。
第二代芯片,我們要解決本地語音識別、安全特征、聲紋,我們會采取更深度的融合,從算法到基礎 IP 都做專門的優(yōu)化,達到更好的目的。更下一代芯片就是多模態(tài),甚至我們也會考慮用到存儲、工藝、封裝的優(yōu)化。
稍微花點時間講一下對下面十年的展望,我們會看到什么?一方面是會有一些很美好的想象;另一方面,我們也會看到,AI 各方面的技術的應用場景也并不那么令人愉悅。以前我們假設科學技術的進步一定是給人類帶來更美好的生活,現在我們到了這個十字路口,下面未必是這樣,有可能在一些場景下帶來一些負面作用。比如說,教室里每個人都會被監(jiān)控的話,明年可能這家公司會推出一個 APP 將辦公室也會變成可監(jiān)控的;或是后年推出一個東西,會議室也變成這樣。我想,這不是我們想要的東西。
上個月國家出臺了新一代人工智能治理原則,希望大家做的時候關注這一塊。我們作為研發(fā)者、使用者要有高度的社會責任和自律意識,大家上下班一天很辛苦,回家的時候也可以想想我做的事到底讓人類的生活更加美好、更加方便,還是我做的事情騷擾別人,讓別人更難受。最后,還是希望大家多思考,做對的事情,就像父母說“明知道不對的事情不要做”,努力捍衛(wèi)人類的一點尊嚴。
我就講到這里,謝謝!
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。
本專題其他文章