未來(lái)幾年，誰(shuí)能拯救手機(jī)拍照功能？

本文作者：趙晨希

2019-02-04 12:55

導(dǎo)語(yǔ)：受限于物理極限和摩爾定律，既不是攝像頭，也不是傳感器。

手機(jī)拍照作為剛需功能，一直是用戶(hù)評(píng)判一款終端好壞的直接標(biāo)準(zhǔn)之一。受限于物理極限以及摩爾定律，攝像頭和傳感器實(shí)現(xiàn)“質(zhì)”的飛躍，可能性不大。未來(lái)幾年，手機(jī)攝影的突破點(diǎn)在于AI技術(shù)與元器件的深度融合。

近日，在商湯科技與艾瑞咨詢(xún)聯(lián)合發(fā)布的《2018年中國(guó)人工智能手機(jī)行業(yè)研究報(bào)告》中指出，2006年及以前，手機(jī)行業(yè)屬于功能推動(dòng)階段，從一開(kāi)始圍繞接打電話(huà)到承載拍照、聽(tīng)音樂(lè)、上網(wǎng)等復(fù)合功能。2007年至2016年，市場(chǎng)變?yōu)樾阅芡苿?dòng)階段，配置成為商家逐鹿的方向。2017年之后，市場(chǎng)進(jìn)入智能驅(qū)動(dòng)的階段。人工智能開(kāi)始推動(dòng)手機(jī)產(chǎn)品的迭代，硬件技術(shù)的升級(jí)需要軟件技術(shù)地優(yōu)化和凸顯。

人工智能手機(jī)＝AI芯片＋AI功能，即“滿(mǎn)足AI算力需求移動(dòng)端芯片，且加載了深度學(xué)習(xí)AI功能的智能手機(jī)?！?。AI芯片指內(nèi)置獨(dú)立神經(jīng)網(wǎng)絡(luò)計(jì)算單元，通過(guò)CPU、GPU、DSP及其他通用計(jì)算單元聯(lián)動(dòng)賦能。AI功能囊括人臉解鎖、AI拍照、智能相冊(cè)、AI智能助手等等。

報(bào)告顯示，巨頭廠(chǎng)商扮演了引領(lǐng)者的角色，多方面推動(dòng)AI手機(jī)落地。2018年，我國(guó)4G滲透率達(dá)70%，手機(jī)市場(chǎng)3G向4G升級(jí)結(jié)構(gòu)性紅利漸失。部分硬件提升邊際成本和收益不成正比。這種情況下，預(yù)計(jì)到2022年，搭載AI功能的智型手機(jī)出貨量占比，將從2017年的不到10%提升到80%，年銷(xiāo)量將超13億部。AI手機(jī)將是未來(lái)行業(yè)的產(chǎn)品方向。

未來(lái)幾年，誰(shuí)能拯救手機(jī)拍照功能？

盡管在過(guò)去的2018年，AI人工智能手機(jī)噱頭滿(mǎn)滿(mǎn)，不乏各種炒作以及不著邊際地吹牛皮。但手機(jī)攝影取得的巨大進(jìn)步，主要在于軟件和硅層，而不是傳感器和鏡頭等硬件。AI人工智能可以更好地理解，圖像呈現(xiàn)的內(nèi)容。預(yù)計(jì)未來(lái)幾年關(guān)于手機(jī)攝影的常識(shí)，將會(huì)從硬件思維轉(zhuǎn)變?yōu)锳I思維。手機(jī)制造商們的人工智能技術(shù)水平，將會(huì)成為手機(jī)拍照功能好壞的主要判斷標(biāo)準(zhǔn)，且這種趨勢(shì)絲毫沒(méi)有放緩的跡象。

2015年，谷歌上線(xiàn)的APP，清晰地展示了人工智能技術(shù)與攝影技術(shù)融合之后的照片。在此之前，谷歌一直試圖通過(guò)機(jī)器學(xué)習(xí)技術(shù)對(duì)照片進(jìn)行分類(lèi)。谷歌的照片APP直接面向消費(fèi)者提供人工智能服務(wù)，這對(duì)于大多數(shù)人而言，是難以想象的?！巴蝗恢g，用戶(hù)可以從雜亂無(wú)章、數(shù)以千計(jì)的圖片庫(kù)，轉(zhuǎn)換為可搜索的資料庫(kù)”，“突然之間，谷歌就知道你的貓看起來(lái)像什么”。

據(jù)雷鋒網(wǎng)了解，2013年，谷歌收購(gòu)了多倫多大學(xué)一家神經(jīng)網(wǎng)絡(luò)方面的初創(chuàng)公司DNNResearch，用以推動(dòng)谷歌基于語(yǔ)音和圖片的搜索功能。該公司通過(guò)訓(xùn)練人類(lèi)標(biāo)記的數(shù)據(jù)，訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò)，此過(guò)程被成為監(jiān)管學(xué)習(xí)（Supervised Learning）。具體而言，在數(shù)百萬(wàn)張圖片上訓(xùn)練網(wǎng)絡(luò)，以使得它能夠通過(guò)像素級(jí)別的視覺(jué)線(xiàn)索，來(lái)幫助圖片識(shí)別分類(lèi)。隨著時(shí)間的推移，算法將會(huì)識(shí)別得越來(lái)越準(zhǔn)確。

比如，一個(gè)大熊貓，囊括了可以正確識(shí)別熊貓動(dòng)物品類(lèi)，黑色皮毛與白色皮毛的比例，以及和荷蘭奶牛皮毛的區(qū)別。進(jìn)一步訓(xùn)練以后，理解更加抽象的詞匯成為可能。例如，“動(dòng)物”、“早餐”等，對(duì)人類(lèi)而言比較簡(jiǎn)單，但對(duì)機(jī)器來(lái)講，屬于沒(méi)有視覺(jué)輸出的詞匯。

訓(xùn)練完以上的模型，需要大量的時(shí)間以及整理能力。一旦數(shù)據(jù)中心完成之后，它將可以以低功耗、便捷的方式在設(shè)備上運(yùn)行。如今，前期這些繁重的工作已經(jīng)完成，只要把照片上傳到云端，谷歌就可以通過(guò)模型來(lái)分類(lèi)、標(biāo)記整個(gè)圖片庫(kù)。

谷歌圖片功能發(fā)布大約一年之后，蘋(píng)果發(fā)布了基于神經(jīng)網(wǎng)絡(luò)（類(lèi)似谷歌）的搜索照片功能。但鑒于蘋(píng)果用戶(hù)隱私條例的承諾，蘋(píng)果的分類(lèi)功能實(shí)際上是在每個(gè)設(shè)備中單獨(dú)進(jìn)行的，設(shè)置后在后臺(tái)進(jìn)行，并不發(fā)送數(shù)據(jù)，用時(shí)長(zhǎng)達(dá)一到兩天時(shí)間。

盡管和照片智慧管理是一回事，但人工智能和機(jī)器學(xué)習(xí)，毫無(wú)疑問(wèn)，對(duì)于照片拍攝具有重大意義。攝像頭和傳感器可以“比大更大”，可是又起到怎樣的作用呢？攝像頭、傳感器已經(jīng)達(dá)到物理極限。如今，在某些情況下，手機(jī)拍攝的照片比傳統(tǒng)照相機(jī)拍得更好已經(jīng)不是什么“稀罕事”。其背后深層次原因在于，傳統(tǒng)相機(jī)無(wú)法在芯片維度與手機(jī)競(jìng)爭(zhēng)。手機(jī)芯片系統(tǒng)包括CPU、圖像信號(hào)處理器、越來(lái)越多的神經(jīng)處理單元NPU。

未來(lái)幾年，誰(shuí)能拯救手機(jī)拍照功能？

硬件的改變促成了計(jì)算攝影時(shí)代的到來(lái)，廣義上的概念，涵蓋了從人像模式的“假景深”到算法，一切計(jì)算形式，幫助手機(jī)拍攝出難以置信的手機(jī)照片。不是所有的計(jì)算攝影都包括人工智能，但人工智能肯定是重要的一個(gè)部分。過(guò)去，蘋(píng)果手機(jī)正是基于此，驅(qū)動(dòng)雙攝像頭的人像模式。iPhone一個(gè)攝像頭的圖像信號(hào)處理器通過(guò)機(jī)器學(xué)習(xí)區(qū)分人，另一個(gè)攝像頭創(chuàng)建深度圖隔離主體、模糊背景。

這項(xiàng)技能在2016年就出現(xiàn)了，所以，通過(guò)機(jī)器學(xué)習(xí)識(shí)別人并不是什么新生事物。照片軟件組織（photo organization software）也早已經(jīng)做到這一點(diǎn)，智能手機(jī)拍照的突破在于，實(shí)時(shí)性的處理速度。然而，谷歌才是這一領(lǐng)域的領(lǐng)導(dǎo)者，三代Pixel所展示出的結(jié)果令人信服。HDR+是一種默認(rèn)的攝影模型，通過(guò)復(fù)雜的算法，融合幾張曝光不足的幀合并為一幀。就像谷歌計(jì)算攝影的負(fù)責(zé)人Marc Levoy所言，“機(jī)器學(xué)習(xí)只會(huì)隨著時(shí)間的推移變得更好，同谷歌照片軟件一樣，谷歌已經(jīng)在一個(gè)巨大的、被標(biāo)記的照片數(shù)據(jù)庫(kù)上訓(xùn)練人工智能。進(jìn)一步幫助相機(jī)的曝光，就像Pixel 2，產(chǎn)生了令人印象深刻的照片質(zhì)量基準(zhǔn)?！?/p>

前幾個(gè)月，谷歌推出了Night Sight（夜景）功能，Pixel通過(guò)機(jī)器學(xué)習(xí)技術(shù)以長(zhǎng)曝光來(lái)精準(zhǔn)地預(yù)測(cè)白平衡和色彩。其中，Pixel 3效果最好，可能是算法隨最新的硬件進(jìn)行了迭代。這套算法適用于谷歌所有Pixel系列，甚至是缺少光學(xué)圖像穩(wěn)定性的工程機(jī)。這也從側(cè)面說(shuō)明了，于移動(dòng)攝影而言，相機(jī)的軟件比硬件更為重要。簡(jiǎn)而言之，在人工智能的“操持”下，硬件因此擁有了更大的提升空間。

據(jù)雷鋒網(wǎng)了解，華為的Nova 4以及榮耀的View 20，首次采用了索尼IMX586圖像傳感器，4800萬(wàn)像素，意味著現(xiàn)階段的最高級(jí)別分辨率。盡管如此，仍然需要在很多極其微小的單元填滿(mǎn)像素，對(duì)圖片質(zhì)量產(chǎn)生不確定性影響。榮耀“AI Ultra Clarity”（人工智能超清晰）模式，擅長(zhǎng)于最大限度地利用分辨率，解擾傳感器不常見(jiàn)的色彩濾光器，釋放出額外的細(xì)節(jié)。用戶(hù)可以將圖片放大，“海報(bào)”級(jí)照片應(yīng)運(yùn)而生。

圖像信號(hào)處理器在某一段時(shí)間非常重要，隨著計(jì)算攝影技術(shù)的進(jìn)步，NPU將會(huì)發(fā)揮重要的作用。雖然蘋(píng)果公司的A11仿生芯片最先觸達(dá)消費(fèi)者，但華為是率先宣布在自家麒麟970上，采用人工智能芯片的公司。全球最大的安卓處理器供應(yīng)商高通公司，并未將機(jī)器學(xué)習(xí)作為戰(zhàn)略重點(diǎn)。谷歌開(kāi)發(fā)了自己的芯片Pixel Visual Core，用以幫助人工智能相關(guān)的圖像處理。蘋(píng)果最新的A12仿生芯片具有八核神經(jīng)引擎，可以在core ML中運(yùn)行任務(wù)，直接與圖像處理器相連接，比A11快九倍?？梢愿玫貙?duì)焦，生成更真實(shí)的景深。

所以，芯片對(duì)于對(duì)于機(jī)器學(xué)習(xí)的效率和性能至關(guān)重要。需要說(shuō)明的是，谷歌的算法是在大型計(jì)算機(jī)上訓(xùn)練的，大型計(jì)算機(jī)擁有發(fā)達(dá)的GPU以及英偉達(dá)深度學(xué)習(xí)Tensor Core（張量計(jì)算核心），大部分工作可以“提前”完成。一旦將機(jī)器學(xué)習(xí)的計(jì)算能力搬運(yùn)到移動(dòng)端設(shè)備上，可以預(yù)見(jiàn)，在相當(dāng)長(zhǎng)的一段時(shí)間內(nèi)，屬于前沿性研究。

未來(lái)幾年，誰(shuí)能拯救手機(jī)拍照功能？

即使目前處于計(jì)算攝影的早期階段，神經(jīng)引擎可以減少手機(jī)拍照的處理負(fù)擔(dān)，隨時(shí)間的積累，運(yùn)行速度越來(lái)越快。拍照作為任何手機(jī)最基本的功能，面部ID、人臉識(shí)別解鎖、AR視頻、AI人像、景物美化、相冊(cè)智能分類(lèi)、智能場(chǎng)景識(shí)圖......在過(guò)去兩年時(shí)間，已經(jīng)深入滲透到普通人的日常生活中。

《2018年中國(guó)人工智能手機(jī)行業(yè)研究報(bào)告》顯示，語(yǔ)音助手、人臉解鎖、智能光線(xiàn)拍攝、美顏和識(shí)圖成為2018年中國(guó)AI智慧手機(jī)用戶(hù)最經(jīng)常使的TOP5功能。人臉解鎖、語(yǔ)音助手、隨行翻譯、智能光線(xiàn)拍攝、AI雙攝／三攝、背景虛化成為用戶(hù)認(rèn)為最有價(jià)值的TOP5功能。

雷鋒網(wǎng)認(rèn)為，指數(shù)級(jí)增長(zhǎng)遇到物理極限這個(gè)“天敵”，沒(méi)有休止地持續(xù)增長(zhǎng)逐步放緩。未來(lái)誰(shuí)能夠拯救停滯不前的移動(dòng)攝影，答案不言自明！

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

趙晨希

編輯

簡(jiǎn)單是終極的復(fù)雜。WeChat：chenxi252516

發(fā)私信

當(dāng)月熱門(mén)文章

未來(lái)幾年，誰(shuí)能拯救手機(jī)拍照功能？

未來(lái)幾年，誰(shuí)能拯救手機(jī)拍照功能？