Apple Photos智能識(shí)圖的本質(zhì)是什么，以及它為什么比Google Photos晚來了整整一年？

本文作者：圖普科技

2016-06-17 19:03

導(dǎo)語(yǔ)：Apple作為硬件為主體的公司，將人工智能運(yùn)行在移動(dòng)設(shè)備本地是其達(dá)到最大效應(yīng)的方式。

雷鋒網(wǎng)按：本文作者系圖普科技工程師，雷鋒網(wǎng)原創(chuàng)首發(fā)。

| iOS 10的Photos用AI做什么？

在剛剛結(jié)束的舊金山蘋果全球開發(fā)者大會(huì)上，蘋果軟件工程高級(jí)副總裁 Craig Federighi 講述了新的照片管理功能 Photos。

Apple Photos智能識(shí)圖的本質(zhì)是什么，以及它為什么比Google Photos晚來了整整一年？

在iOS 10的照片中，蘋果利用深度學(xué)習(xí)和計(jì)算機(jī)視覺技術(shù)徹底更新了照片應(yīng)用程序，通過人臉識(shí)別和物體識(shí)別自動(dòng)識(shí)別圖片內(nèi)容，給相冊(cè)中的人物分類。并且，新增的“回憶”功能，可以基于照片中的位置、人、場(chǎng)景和主題聚集在一起，然后選擇音樂配以創(chuàng)建“短期、中期、長(zhǎng)期”的視頻或者電影。

例如，它會(huì)識(shí)別與旅行相關(guān)的所有照片，將它們集中置于一個(gè)相冊(cè)，也許命名為“家庭度假”；或者說它會(huì)識(shí)別散落在相冊(cè)各處的母親的照片，并將它們分組集中起來。

| Apple Photos與Google Photos、Microsoft Photos有哪些差異？

簡(jiǎn)單來說，對(duì)圖像的深度學(xué)習(xí)算法是通過多層的神經(jīng)網(wǎng)絡(luò)，不斷地提取圖像的高層次抽象具有強(qiáng)表達(dá)能力的語(yǔ)意層次的特征，即去偽存真的過程，有了很好的特征，就可以很好地對(duì)圖像進(jìn)行各種處理。

Apple Photos智能識(shí)圖的本質(zhì)是什么，以及它為什么比Google Photos晚來了整整一年？

機(jī)器視覺領(lǐng)域以前提取特征的方式多為人工設(shè)定，而現(xiàn)在深度學(xué)習(xí)的方式是通過大規(guī)模的數(shù)據(jù)讓算法自己去學(xué)，人的設(shè)定總是有局限的，而現(xiàn)在的深度學(xué)習(xí)可以在大規(guī)模數(shù)據(jù)的幫助下學(xué)習(xí)出人無法設(shè)計(jì)出的特征，這也是深度學(xué)習(xí)的魔力來源。當(dāng)然現(xiàn)在一個(gè)基于深度學(xué)習(xí)的產(chǎn)品系統(tǒng)是非常復(fù)雜的，其還會(huì)結(jié)合時(shí)序信息，上下文的建模來達(dá)到驚人的能力。

無論是Apple，Google，Microsoft Photos里面使具體技術(shù)細(xì)節(jié)我們無從探知，畢竟這是這些公司關(guān)于人工智能的機(jī)密技術(shù)，但是我們還是可以從其提供的功能表象，再結(jié)合正在機(jī)器視覺領(lǐng)域掀起革命的深度學(xué)習(xí)技術(shù)，對(duì)其背后的技術(shù)原理進(jìn)行一番推測(cè)。

Apple Photos智能識(shí)圖的本質(zhì)是什么，以及它為什么比Google Photos晚來了整整一年？

無論是按人臉、地理位置、記憶分組，其背后本質(zhì)上都是 image classification，clustering，sorting， tagging等機(jī)器視覺任務(wù)。現(xiàn)在流行的深度學(xué)習(xí)技術(shù)（無論是深度卷機(jī)網(wǎng)絡(luò)CNN還是LSTM長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)）近兩年來在此類任務(wù)上取得了驚人的成績(jī)，諸如Apple，Google等IT巨頭公司必然大量?jī)?chǔ)備了此類技術(shù)，同時(shí)加上去獨(dú)一無二的海量數(shù)據(jù)和用戶運(yùn)用場(chǎng)景，使得這些公司可以運(yùn)用這些深度學(xué)習(xí)技術(shù)將看起來很酷炫的機(jī)器視覺任務(wù)推向大眾。

Google于2015年率先推出了基于人工智能的Photos產(chǎn)品，其可以將用戶圖片聚合于people，places和things這三個(gè)類別中，Apple在剛剛結(jié)束的WWDC上推出的Photos也緊隨其后，推出了類似的功能，如人臉識(shí)別，和按官方稱的按memories進(jìn)行分組（里面也包含預(yù)測(cè)location功能，同時(shí)能在map上顯示出來），具體不同的業(yè)務(wù)場(chǎng)景取決于各個(gè)公司對(duì)其客戶使用方式的把控，但是從業(yè)務(wù)邏輯和功能背后的技術(shù)上看并沒有顯出太大差異。

Apple Photos智能識(shí)圖的本質(zhì)是什么，以及它為什么比Google Photos晚來了整整一年？

由于Google是一家互聯(lián)網(wǎng)導(dǎo)向公司，在云計(jì)算上有非常強(qiáng)的實(shí)力，所以Google photos是使用云的方式對(duì)客戶圖片進(jìn)行存儲(chǔ)和各種人工智能的處理，這樣的方式使得Google可以使用其云端強(qiáng)大的計(jì)算能力去進(jìn)行很復(fù)雜的運(yùn)算處理，從而達(dá)到非常智能的效果，但是客戶需要將其照片同步至云端，這會(huì)帶來一些隱私的問題。

Apple Photos智能識(shí)圖的本質(zhì)是什么，以及它為什么比Google Photos晚來了整整一年？

而Apple作為硬件為主體的公司，將人工智能的功能運(yùn)行在其公司的移動(dòng)設(shè)備是其達(dá)到最大效應(yīng)的方式也是最自然選擇，所以Apple的photos的智能處理運(yùn)行于本地，這就使得用戶不需要連上云就可以享受到這些功能，這極大打消了用戶的隱私方面的擔(dān)憂，這確實(shí)是Apple一個(gè)很大的賣點(diǎn)。

另外，Apple在本地，尤其移動(dòng)設(shè)備上，運(yùn)行人工智能算法是具有很大意義的。如何在有限的計(jì)算資源上達(dá)到高性能和低功耗，是其著重考量的點(diǎn)，當(dāng)前深度學(xué)習(xí)在模型能力探索到一定階段后（變深變強(qiáng)），學(xué)術(shù)界和工業(yè)界的注意力慢慢也轉(zhuǎn)向模型大規(guī)模使用的層次，即變小變快——

蘋果的人工智能在本地運(yùn)行的背后應(yīng)該很大依賴于現(xiàn)在學(xué)術(shù)界正在重點(diǎn)關(guān)注的研究領(lǐng)域，模型壓縮 (model compression)，也就是在稍微損失準(zhǔn)確率的情況下，讓所需計(jì)算量大幅度降低，使得深度學(xué)習(xí)的模型可以運(yùn)行在計(jì)算能力受限的設(shè)備上。

Apple Photos智能識(shí)圖的本質(zhì)是什么，以及它為什么比Google Photos晚來了整整一年？

這方面是一個(gè)巨大的挑戰(zhàn)，至于Apple是否有獨(dú)有領(lǐng)先學(xué)界業(yè)界的黑科技使得photos做到低功耗高性能的運(yùn)用，這就不得而知，所以Apple的photos本地運(yùn)行深度學(xué)習(xí)算法更加令人期待。

同時(shí)我們也不能忘記IT另一個(gè)在深度學(xué)習(xí)，機(jī)器視覺技術(shù)上有深厚積累的微軟，微軟也有類photos產(chǎn)品，但是可能由于其并沒有太強(qiáng)的用戶場(chǎng)景，其photos并沒有作為一個(gè)獨(dú)立的產(chǎn)品推出，所以沒有引起太大關(guān)注，考慮到微軟在此方面非常好的技術(shù)，對(duì)此感到有點(diǎn)遺憾。

| 圖像識(shí)別技術(shù)在移動(dòng)端應(yīng)用，究竟難在哪里？

目前，圖像識(shí)別技術(shù)是基于深度學(xué)習(xí)算法多維度解讀圖像內(nèi)容，需要強(qiáng)大的計(jì)算能力來支撐機(jī)器的程序運(yùn)行。即使是比較簡(jiǎn)單的深度學(xué)習(xí)圖片識(shí)別，比如在2012年的ImageNet大賽上的也需要上億次的運(yùn)算，而在四年后的今天，深度學(xué)習(xí)算法對(duì)一張圖片進(jìn)行解讀都需要進(jìn)行幾十億的運(yùn)算，甚至上百億，但是這些都是在云端進(jìn)行的運(yùn)算，并且有專用的硬件系統(tǒng)，所以能夠在較短的時(shí)間內(nèi)進(jìn)行高速大量的運(yùn)算。

根據(jù)我們的自己的經(jīng)驗(yàn)，tuputech的圖像識(shí)別系統(tǒng)，每天進(jìn)行超過9億張的圖片識(shí)別，并且還需要較高的識(shí)別精確度，這對(duì)于模型的優(yōu)化、計(jì)算能力、帶寬的傳輸效率等要求都是非常高的。

但是手機(jī)端的本地計(jì)算不同于云端計(jì)算，如果在手機(jī)端進(jìn)行如此高速、大量的運(yùn)算，在算法層面技術(shù)難點(diǎn)主要還是在于這三個(gè)方面：

第一、模型的復(fù)雜程度，也就是模型的聰明程度、準(zhǔn)確率、精確度等；
第二、計(jì)算時(shí)間，指計(jì)算一張圖片需要花多長(zhǎng)時(shí)間；
第三、功耗，指的是計(jì)算一張圖片需要消耗的手機(jī)電池的電量

并且手機(jī)電池的續(xù)航能力一直是各個(gè)廠商想要攻破的難題，所以如果缺乏適配于手機(jī)端的計(jì)算能力，直接在手機(jī)上跑幾十億次的運(yùn)算，可能只理解幾張圖片，手機(jī)電池就會(huì)被耗光。

另外，對(duì)于硬件能力的提升也是一大重點(diǎn)，怎么設(shè)計(jì)出更好的硬件去支持現(xiàn)在的深度學(xué)習(xí)算法，從而降低功耗、加快速度，我想Apple作為有硬件閉環(huán)的公司，在硬件上應(yīng)該做了很大的定制化和創(chuàng)新, 使得基于人工智能的photos產(chǎn)品可運(yùn)用在手機(jī)端，這也是Apple相對(duì)于其他互聯(lián)網(wǎng)巨頭得天獨(dú)厚的優(yōu)勢(shì)，不要忘記Apple是硬件導(dǎo)向的巨頭。

目前的人工智能基本都是在可控性較好的云端，而移動(dòng)設(shè)備的計(jì)算能力和能耗都還不夠好，所以可能計(jì)算結(jié)果沒那么精準(zhǔn)、計(jì)算速度沒那么快，但若移動(dòng)設(shè)備裝配上人工智能的能力，無論是商業(yè)市場(chǎng)上還是真正改變?nèi)祟惖纳钌希胂罅κ蔷薮蟮?。所以Apple、Google和Microsof還是會(huì)選擇將圖像識(shí)別技術(shù)應(yīng)用在手機(jī)端上，他們本身就是手機(jī)服務(wù)商，有這樣的市場(chǎng)需求，他們自然會(huì)開始重視深度學(xué)習(xí)在端上的應(yīng)用，相對(duì)于其他的手機(jī)應(yīng)用，這是他們將深度學(xué)習(xí)系統(tǒng)全部應(yīng)用在端的一個(gè)集合。比如說蘋果的硬件包括手機(jī)、iPad、watch、Mac等，其所有的深度學(xué)習(xí)應(yīng)用的程序和接口都是一樣的，擁有統(tǒng)一的神經(jīng)網(wǎng)絡(luò)庫(kù)。

畢竟移動(dòng)端的應(yīng)用更加貼近人類的生活。只要有市場(chǎng)需求，就有發(fā)展，正如我們現(xiàn)在的手機(jī)能力比當(dāng)年登月的芯片的計(jì)算能力高了不知道多少倍，那些芯片幫助人登上了月球，而我們現(xiàn)在卻用更好的芯片刷微博。其實(shí)也是在說，技術(shù)發(fā)展得確實(shí)非?？?，可能現(xiàn)在覺得不大可能的事情，一兩年后可能人人都會(huì)在談?wù)f論道。

Apple Photos智能識(shí)圖的本質(zhì)是什么，以及它為什么比Google Photos晚來了整整一年？

|iOS 10的Photos推出，還有更大的意義

但是這項(xiàng)自動(dòng)將相冊(cè)分類功能看上去好像只是錦上添花的工作，如果這個(gè)功耗太大，而且準(zhǔn)確率還不夠高，就會(huì)得不償失，用戶就不希望這個(gè)功能消耗更多的電量，甚至于很多客戶寧愿不要，因?yàn)樗麄兛隙ㄖ罆?huì)消耗電量。

但是我們tuputech的技術(shù)控們還提了個(gè)問題，其實(shí)大家還會(huì)擔(dān)憂“隱私”的問題，因?yàn)橐粋€(gè)太智能的東西在幫你打點(diǎn)東西，大多數(shù)人會(huì)有隱私被侵犯的感覺，所以智能更適合做一些不太敏感的分類。不然相冊(cè)里有一些黃圖，系統(tǒng)告訴你是黃圖并且自動(dòng)幫你歸類，你會(huì)沒有安全感，同時(shí)會(huì)產(chǎn)生恐懼，最后對(duì)整個(gè)產(chǎn)品喪失信任，而且現(xiàn)在公眾確實(shí)還不大適應(yīng)人工智能，還需要接受的時(shí)間。

但是人工智能、圖像識(shí)別在手機(jī)端的應(yīng)用也是很廣泛的，在進(jìn)入移動(dòng)互聯(lián)網(wǎng)時(shí)代后，智能廣告、推薦已經(jīng)從輔助路徑轉(zhuǎn)變到了主路徑上，比如說手機(jī)淘寶，其首頁(yè)的商品推薦已經(jīng)個(gè)性化，很大程度上提升了首頁(yè)的分發(fā)能力；而今日頭條新聞客戶端，其主打特色也將智能推薦的資訊內(nèi)容放入了產(chǎn)品主路徑等。這些智能推薦引擎用大量的細(xì)分內(nèi)容協(xié)助廣告主細(xì)分了不同的用戶，更精準(zhǔn)得進(jìn)行廣告投放。

除此之外，現(xiàn)在也是一個(gè)移動(dòng)視頻應(yīng)用爆炸增長(zhǎng)的時(shí)代，一個(gè)較大的直播平臺(tái)的用戶量在高峰期可以同時(shí)幾千萬(wàn)、甚至上億人在線，但是目前直播獲益方式還是以與網(wǎng)紅分成為主。

如果通過圖像識(shí)別對(duì)主播進(jìn)行分類，可以得出直播平臺(tái)的內(nèi)容是否健康，或者給主播打上標(biāo)簽，平臺(tái)是否需要培養(yǎng)和扶持一些比較稀缺、受歡迎的主播?；蛘吒鶕?jù)直播的視頻內(nèi)發(fā)出的所有圖像信息，包括人物、地點(diǎn)、活動(dòng)、事物、背景等，在以人工智能技術(shù)作為基本支撐下，可以幫助用戶智能搜索所需信息，像KTV 、餐廳、教室等，機(jī)器人可以根據(jù)用戶偏好，智能推送相應(yīng)直播視頻，幫助直播企業(yè)更好地進(jìn)行用戶互動(dòng)運(yùn)營(yíng)。這些都是可以提高產(chǎn)品和用戶體驗(yàn)，或者企業(yè)想將這些信息流量變現(xiàn)，均可按企業(yè)需求定制。

雷鋒網(wǎng)注：本文為雷鋒網(wǎng)原創(chuàng)約稿首發(fā)文章，轉(zhuǎn)載請(qǐng)聯(lián)系我們授權(quán)并注明出處和作者，不得修改內(nèi)容。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。