0
本文作者: 汪思穎 | 2017-11-19 20:31 |
雷鋒網(wǎng)消息,蘋(píng)果 Vision 框架的發(fā)布,意味著開(kāi)發(fā)者可以在 App 中使用深度學(xué)習(xí)算法和許多其他的計(jì)算機(jī)視覺(jué)技術(shù)。那么,支持這一創(chuàng)造性革新的背后,蘋(píng)果團(tuán)隊(duì)面臨了哪些挑戰(zhàn)?日前,蘋(píng)果在其官網(wǎng)發(fā)文,首次揭露了這些信息。詳情如下,雷鋒網(wǎng)編譯整理:
蘋(píng)果在 iOS 10 中開(kāi)始使用深度學(xué)習(xí)技術(shù)。隨著 Vision 框架的發(fā)布,開(kāi)發(fā)者可以在 App 中使用深度學(xué)習(xí)技術(shù)和許多其他的計(jì)算機(jī)視覺(jué)算法。他們?cè)陂_(kāi)發(fā) Vision 框架時(shí),為了保護(hù)用戶(hù)隱私,讓算法能高效執(zhí)行,面臨著巨大的挑戰(zhàn)。下面是對(duì)這些挑戰(zhàn)的介紹。
蘋(píng)果公司首先通過(guò) CIDetector 類(lèi)在 Core Image 框架中發(fā)布了人臉檢測(cè)公共 API 。蘋(píng)果內(nèi)部應(yīng)用程序也在使用這個(gè) API ,例如 Photo 。CIDetector 最早版本使用的是一種基于 Viola-Jones 的檢測(cè)算法,基于傳統(tǒng)計(jì)算機(jī)視覺(jué)技術(shù)的進(jìn)步,CIDetector 得到了持續(xù)改進(jìn)。
隨著深度學(xué)習(xí)的出現(xiàn)以及它在計(jì)算機(jī)視覺(jué)問(wèn)題上的應(yīng)用,這些頂尖技術(shù)在人臉檢測(cè)的精準(zhǔn)性上取得了前所未有的巨大進(jìn)步。為了利用這些技術(shù)的所帶來(lái)的轉(zhuǎn)變,蘋(píng)果徹底重新思考他們的方法。
與傳統(tǒng)的計(jì)算機(jī)視覺(jué)相比,在深度學(xué)習(xí)中學(xué)到的模型需要更大的內(nèi)存、更大的磁盤(pán)存儲(chǔ)空間和更多的計(jì)算資源。
雖然手機(jī)發(fā)展到現(xiàn)在,已經(jīng)具備各種各樣的功能了,但傳統(tǒng)的高端手機(jī)并不是一個(gè)適合訓(xùn)練深度學(xué)習(xí)視覺(jué)模型的平臺(tái)。大多數(shù)行業(yè)通過(guò)云端的 API 提供深度學(xué)習(xí)解決方案來(lái)解決這個(gè)問(wèn)題。在那種云端解決方案中,圖像被發(fā)送到云端服務(wù)器,然后再利用深度學(xué)習(xí)來(lái)推理、檢測(cè)人臉。
云端的服務(wù)通常使用性能強(qiáng)大的桌面級(jí) GPU,具有大量可用內(nèi)存。當(dāng)碰到非常大的網(wǎng)絡(luò)模型,或者可能要配置大型模型時(shí),都可以在服務(wù)器端運(yùn)行,這能保證客戶(hù)端(可能是移動(dòng)電話(huà))可以在云端(在本地?zé)o法運(yùn)行)運(yùn)行大型的深度學(xué)習(xí)架構(gòu)。
蘋(píng)果 iCloud 照片庫(kù)是一個(gè)基于云端的圖片和視頻存儲(chǔ)解決方案。不過(guò),由于蘋(píng)果此前做出過(guò)承諾,絕不侵犯用戶(hù)隱私,所以他們不能利用 iCloud 服務(wù)器來(lái)進(jìn)行計(jì)算機(jī)視覺(jué)計(jì)算。所有發(fā)送到 iCloud 照片庫(kù)的照片和視頻在發(fā)送到云存儲(chǔ)之前就在設(shè)備上進(jìn)行了編碼,而且只能通過(guò)注冊(cè)過(guò)那個(gè) iCloud 賬戶(hù)的設(shè)備進(jìn)行解密。因此,為了帶來(lái)深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)解決方案,必須直面在 iPhone 上運(yùn)行深度學(xué)習(xí)算法的挑戰(zhàn)。
除了這一點(diǎn)外,蘋(píng)果還面臨諸多挑戰(zhàn)。
深度學(xué)習(xí)模型需要裝配到操作系統(tǒng)中去,占用本來(lái)就很稀缺的 NAND 存儲(chǔ)空間。
此外,它還需要加載到 RAM 中,使得 GPU/CPU 的計(jì)算時(shí)間大大延長(zhǎng)。
與云端的服務(wù)不同,云上的資源可以分配,可以用來(lái)單獨(dú)解決視覺(jué)問(wèn)題,而想要在設(shè)備上進(jìn)行計(jì)算,則需要在與其他正在運(yùn)行的應(yīng)用程序共享系統(tǒng)資源。
最后,計(jì)算必須足夠高效,能夠在相當(dāng)短的時(shí)間內(nèi)處理大型圖片庫(kù),并且手機(jī)的電量不會(huì)消耗得過(guò)快,手機(jī)也不能產(chǎn)生明顯發(fā)熱。
via:apple.com
雷鋒網(wǎng)編輯整理。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。