0
手機(jī)拍照作為剛需功能,一直是用戶(hù)評(píng)判一款終端好壞的直接標(biāo)準(zhǔn)之一。受限于物理極限以及摩爾定律,攝像頭和傳感器實(shí)現(xiàn)“質(zhì)”的飛躍,可能性不大。未來(lái)幾年,手機(jī)攝影的突破點(diǎn)在于AI技術(shù)與元器件的深度融合。
近日,在商湯科技與艾瑞咨詢(xún)聯(lián)合發(fā)布的《2018年中國(guó)人工智能手機(jī)行業(yè)研究報(bào)告》中指出,2006年及以前,手機(jī)行業(yè)屬于功能推動(dòng)階段,從一開(kāi)始圍繞接打電話(huà)到承載拍照、聽(tīng)音樂(lè)、上網(wǎng)等復(fù)合功能。2007年至2016年,市場(chǎng)變?yōu)樾阅芡苿?dòng)階段,配置成為商家逐鹿的方向。2017年之后,市場(chǎng)進(jìn)入智能驅(qū)動(dòng)的階段。人工智能開(kāi)始推動(dòng)手機(jī)產(chǎn)品的迭代,硬件技術(shù)的升級(jí)需要軟件技術(shù)地優(yōu)化和凸顯。
人工智能手機(jī)=AI芯片+AI功能,即“滿(mǎn)足AI算力需求移動(dòng)端芯片,且加載了深度學(xué)習(xí)AI功能的智能手機(jī)?!?。AI芯片指內(nèi)置獨(dú)立神經(jīng)網(wǎng)絡(luò)計(jì)算單元,通過(guò)CPU、GPU、DSP及其他通用計(jì)算單元聯(lián)動(dòng)賦能。AI功能囊括人臉解鎖、AI拍照、智能相冊(cè)、AI智能助手等等。
報(bào)告顯示,巨頭廠(chǎng)商扮演了引領(lǐng)者的角色,多方面推動(dòng)AI手機(jī)落地。2018年,我國(guó)4G滲透率達(dá)70%,手機(jī)市場(chǎng)3G向4G升級(jí)結(jié)構(gòu)性紅利漸失。部分硬件提升邊際成本和收益不成正比。這種情況下,預(yù)計(jì)到2022年,搭載AI功能的智型手機(jī)出貨量占比,將從2017年的不到10%提升到80%,年銷(xiāo)量將超13億部。AI手機(jī)將是未來(lái)行業(yè)的產(chǎn)品方向。
盡管在過(guò)去的2018年,AI人工智能手機(jī)噱頭滿(mǎn)滿(mǎn),不乏各種炒作以及不著邊際地吹牛皮。但手機(jī)攝影取得的巨大進(jìn)步,主要在于軟件和硅層,而不是傳感器和鏡頭等硬件。AI人工智能可以更好地理解,圖像呈現(xiàn)的內(nèi)容。預(yù)計(jì)未來(lái)幾年關(guān)于手機(jī)攝影的常識(shí),將會(huì)從硬件思維轉(zhuǎn)變?yōu)锳I思維。手機(jī)制造商們的人工智能技術(shù)水平,將會(huì)成為手機(jī)拍照功能好壞的主要判斷標(biāo)準(zhǔn),且這種趨勢(shì)絲毫沒(méi)有放緩的跡象。
2015年,谷歌上線(xiàn)的APP,清晰地展示了人工智能技術(shù)與攝影技術(shù)融合之后的照片。在此之前,谷歌一直試圖通過(guò)機(jī)器學(xué)習(xí)技術(shù)對(duì)照片進(jìn)行分類(lèi)。谷歌的照片APP直接面向消費(fèi)者提供人工智能服務(wù),這對(duì)于大多數(shù)人而言,是難以想象的?!巴蝗恢g,用戶(hù)可以從雜亂無(wú)章、數(shù)以千計(jì)的圖片庫(kù),轉(zhuǎn)換為可搜索的資料庫(kù)”,“突然之間,谷歌就知道你的貓看起來(lái)像什么”。
據(jù)雷鋒網(wǎng)了解,2013年,谷歌收購(gòu)了多倫多大學(xué)一家神經(jīng)網(wǎng)絡(luò)方面的初創(chuàng)公司DNNResearch,用以推動(dòng)谷歌基于語(yǔ)音和圖片的搜索功能。該公司通過(guò)訓(xùn)練人類(lèi)標(biāo)記的數(shù)據(jù),訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò),此過(guò)程被成為監(jiān)管學(xué)習(xí)(Supervised Learning)。具體而言,在數(shù)百萬(wàn)張圖片上訓(xùn)練網(wǎng)絡(luò),以使得它能夠通過(guò)像素級(jí)別的視覺(jué)線(xiàn)索,來(lái)幫助圖片識(shí)別分類(lèi)。隨著時(shí)間的推移,算法將會(huì)識(shí)別得越來(lái)越準(zhǔn)確。
比如,一個(gè)大熊貓,囊括了可以正確識(shí)別熊貓動(dòng)物品類(lèi),黑色皮毛與白色皮毛的比例,以及和荷蘭奶牛皮毛的區(qū)別。進(jìn)一步訓(xùn)練以后,理解更加抽象的詞匯成為可能。例如,“動(dòng)物”、“早餐”等,對(duì)人類(lèi)而言比較簡(jiǎn)單,但對(duì)機(jī)器來(lái)講,屬于沒(méi)有視覺(jué)輸出的詞匯。
訓(xùn)練完以上的模型,需要大量的時(shí)間以及整理能力。一旦數(shù)據(jù)中心完成之后,它將可以以低功耗、便捷的方式在設(shè)備上運(yùn)行。如今,前期這些繁重的工作已經(jīng)完成,只要把照片上傳到云端,谷歌就可以通過(guò)模型來(lái)分類(lèi)、標(biāo)記整個(gè)圖片庫(kù)。
谷歌圖片功能發(fā)布大約一年之后,蘋(píng)果發(fā)布了基于神經(jīng)網(wǎng)絡(luò)(類(lèi)似谷歌)的搜索照片功能。但鑒于蘋(píng)果用戶(hù)隱私條例的承諾,蘋(píng)果的分類(lèi)功能實(shí)際上是在每個(gè)設(shè)備中單獨(dú)進(jìn)行的,設(shè)置后在后臺(tái)進(jìn)行,并不發(fā)送數(shù)據(jù),用時(shí)長(zhǎng)達(dá)一到兩天時(shí)間。
盡管和照片智慧管理是一回事,但人工智能和機(jī)器學(xué)習(xí),毫無(wú)疑問(wèn),對(duì)于照片拍攝具有重大意義。攝像頭和傳感器可以“比大更大”,可是又起到怎樣的作用呢?攝像頭、傳感器已經(jīng)達(dá)到物理極限。如今,在某些情況下,手機(jī)拍攝的照片比傳統(tǒng)照相機(jī)拍得更好已經(jīng)不是什么“稀罕事”。其背后深層次原因在于,傳統(tǒng)相機(jī)無(wú)法在芯片維度與手機(jī)競(jìng)爭(zhēng)。手機(jī)芯片系統(tǒng)包括CPU、圖像信號(hào)處理器、越來(lái)越多的神經(jīng)處理單元NPU。
硬件的改變促成了計(jì)算攝影時(shí)代的到來(lái),廣義上的概念,涵蓋了從人像模式的“假景深”到算法,一切計(jì)算形式,幫助手機(jī)拍攝出難以置信的手機(jī)照片。不是所有的計(jì)算攝影都包括人工智能,但人工智能肯定是重要的一個(gè)部分。過(guò)去,蘋(píng)果手機(jī)正是基于此,驅(qū)動(dòng)雙攝像頭的人像模式。iPhone一個(gè)攝像頭的圖像信號(hào)處理器通過(guò)機(jī)器學(xué)習(xí)區(qū)分人,另一個(gè)攝像頭創(chuàng)建深度圖隔離主體、模糊背景。
這項(xiàng)技能在2016年就出現(xiàn)了,所以,通過(guò)機(jī)器學(xué)習(xí)識(shí)別人并不是什么新生事物。照片軟件組織(photo organization software)也早已經(jīng)做到這一點(diǎn),智能手機(jī)拍照的突破在于,實(shí)時(shí)性的處理速度。然而,谷歌才是這一領(lǐng)域的領(lǐng)導(dǎo)者,三代Pixel所展示出的結(jié)果令人信服。HDR+是一種默認(rèn)的攝影模型,通過(guò)復(fù)雜的算法,融合幾張曝光不足的幀合并為一幀。就像谷歌計(jì)算攝影的負(fù)責(zé)人Marc Levoy所言,“機(jī)器學(xué)習(xí)只會(huì)隨著時(shí)間的推移變得更好,同谷歌照片軟件一樣,谷歌已經(jīng)在一個(gè)巨大的、被標(biāo)記的照片數(shù)據(jù)庫(kù)上訓(xùn)練人工智能。進(jìn)一步幫助相機(jī)的曝光,就像Pixel 2,產(chǎn)生了令人印象深刻的照片質(zhì)量基準(zhǔn)?!?/p>
前幾個(gè)月,谷歌推出了Night Sight(夜景)功能,Pixel通過(guò)機(jī)器學(xué)習(xí)技術(shù)以長(zhǎng)曝光來(lái)精準(zhǔn)地預(yù)測(cè)白平衡和色彩。其中,Pixel 3效果最好,可能是算法隨最新的硬件進(jìn)行了迭代。這套算法適用于谷歌所有Pixel系列,甚至是缺少光學(xué)圖像穩(wěn)定性的工程機(jī)。這也從側(cè)面說(shuō)明了,于移動(dòng)攝影而言,相機(jī)的軟件比硬件更為重要。簡(jiǎn)而言之,在人工智能的“操持”下,硬件因此擁有了更大的提升空間。
據(jù)雷鋒網(wǎng)了解,華為的Nova 4以及榮耀的View 20,首次采用了索尼IMX586圖像傳感器,4800萬(wàn)像素,意味著現(xiàn)階段的最高級(jí)別分辨率。盡管如此,仍然需要在很多極其微小的單元填滿(mǎn)像素,對(duì)圖片質(zhì)量產(chǎn)生不確定性影響。榮耀“AI Ultra Clarity”(人工智能超清晰)模式,擅長(zhǎng)于最大限度地利用分辨率,解擾傳感器不常見(jiàn)的色彩濾光器,釋放出額外的細(xì)節(jié)。用戶(hù)可以將圖片放大,“海報(bào)”級(jí)照片應(yīng)運(yùn)而生。
圖像信號(hào)處理器在某一段時(shí)間非常重要,隨著計(jì)算攝影技術(shù)的進(jìn)步,NPU將會(huì)發(fā)揮重要的作用。雖然蘋(píng)果公司的A11仿生芯片最先觸達(dá)消費(fèi)者,但華為是率先宣布在自家麒麟970上,采用人工智能芯片的公司。全球最大的安卓處理器供應(yīng)商高通公司,并未將機(jī)器學(xué)習(xí)作為戰(zhàn)略重點(diǎn)。谷歌開(kāi)發(fā)了自己的芯片Pixel Visual Core,用以幫助人工智能相關(guān)的圖像處理。蘋(píng)果最新的A12仿生芯片具有八核神經(jīng)引擎,可以在core ML中運(yùn)行任務(wù),直接與圖像處理器相連接,比A11快九倍??梢愿玫貙?duì)焦,生成更真實(shí)的景深。
所以,芯片對(duì)于對(duì)于機(jī)器學(xué)習(xí)的效率和性能至關(guān)重要。需要說(shuō)明的是,谷歌的算法是在大型計(jì)算機(jī)上訓(xùn)練的,大型計(jì)算機(jī)擁有發(fā)達(dá)的GPU以及英偉達(dá)深度學(xué)習(xí)Tensor Core(張量計(jì)算核心),大部分工作可以“提前”完成。一旦將機(jī)器學(xué)習(xí)的計(jì)算能力搬運(yùn)到移動(dòng)端設(shè)備上,可以預(yù)見(jiàn),在相當(dāng)長(zhǎng)的一段時(shí)間內(nèi),屬于前沿性研究。
即使目前處于計(jì)算攝影的早期階段,神經(jīng)引擎可以減少手機(jī)拍照的處理負(fù)擔(dān),隨時(shí)間的積累,運(yùn)行速度越來(lái)越快。拍照作為任何手機(jī)最基本的功能,面部ID、人臉識(shí)別解鎖、AR視頻、AI人像、景物美化、相冊(cè)智能分類(lèi)、智能場(chǎng)景識(shí)圖......在過(guò)去兩年時(shí)間,已經(jīng)深入滲透到普通人的日常生活中。
《2018年中國(guó)人工智能手機(jī)行業(yè)研究報(bào)告》顯示,語(yǔ)音助手、人臉解鎖、智能光線(xiàn)拍攝、美顏和識(shí)圖成為2018年中國(guó)AI智慧手機(jī)用戶(hù)最經(jīng)常使的TOP5功能。人臉解鎖、語(yǔ)音助手、隨行翻譯、智能光線(xiàn)拍攝、AI雙攝/三攝、背景虛化成為用戶(hù)認(rèn)為最有價(jià)值的TOP5功能。
雷鋒網(wǎng)認(rèn)為,指數(shù)級(jí)增長(zhǎng)遇到物理極限這個(gè)“天敵”,沒(méi)有休止地持續(xù)增長(zhǎng)逐步放緩。未來(lái)誰(shuí)能夠拯救停滯不前的移動(dòng)攝影,答案不言自明!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。