0
本文作者: 章敏 | 2016-09-02 14:35 |
導(dǎo)讀:散列法(Hashing)或哈希法是一種將字符組成的字符串轉(zhuǎn)換為固定長度(一般是更短長度)的數(shù)值或索引值的方法,稱為散列法,也叫哈希法。由于通過更短的哈希值比用原始值進(jìn)行數(shù)據(jù)庫搜索更快,這種方法一般用來在數(shù)據(jù)庫中建立索引并進(jìn)行搜索,同時(shí)還用在各種解密算法中。
摘要:對(duì)于大數(shù)據(jù)中快速近鄰搜索,哈希法已被證明是一個(gè)很有吸引力的技術(shù)。與基于哈希法的投影相比,基于原型的投影有更強(qiáng)的能力去生成數(shù)據(jù)(具有復(fù)雜的固有結(jié)構(gòu))的判別性二進(jìn)制碼。然而,我們的觀察表明,它們?nèi)匀粺o法獲得高質(zhì)量的編碼——通常在一個(gè)超立方體中利用完整的二進(jìn)制代碼。為了解決該問題,我們提出了自適應(yīng)二進(jìn)制量化方法——學(xué)習(xí)一個(gè)與原型相應(yīng)、有著小且獨(dú)特二進(jìn)制代碼的判別性散列函數(shù)。我們的交替優(yōu)化以有效的方式自適應(yīng)地發(fā)現(xiàn)原型集和不同尺寸的代碼集,它總的魯棒性近似與數(shù)據(jù)關(guān)系。我們的方法可以很自然地推廣到長散列碼乘積空間。我們相信,我們的想法對(duì)于散列研究非常有幫助。在四個(gè)大型(高達(dá)8000萬)數(shù)據(jù)集上的大量的實(shí)驗(yàn)表明,我們的方法顯著優(yōu)于最好散列方法,性能收益相對(duì)提升了58.84%。
Zhujin Li
北京航空航天大學(xué)軟件開發(fā)環(huán)境國家重點(diǎn)實(shí)驗(yàn)室
受到我們觀察的啟發(fā)——原型為基礎(chǔ)的散列有可能存在一個(gè)更好的編碼解決方案,即只使用一小部分的二進(jìn)制碼,而不是完整的集合,本文提出了一種自適應(yīng)二進(jìn)制量化方法——在原空間中共同追求一套原型和Hamming 空間中的一個(gè)二進(jìn)制代碼子集。原型和代碼相應(yīng)關(guān)聯(lián)且一起定義有著更小散列編碼的散列函數(shù)。我們的方法計(jì)算速度更快,且具備在乘積空間中生成長散列碼的能力,和具有判別能力的最近鄰搜索。
在過去的十年中,由于散列技術(shù)成功的應(yīng)用于許多領(lǐng)域,如大規(guī)模的視覺搜索、機(jī)器學(xué)習(xí)、推薦系統(tǒng)等,其在快速最近鄰搜索領(lǐng)域已被廣泛研究。
via:ECAI 2016
PS : 本文由雷鋒網(wǎng)獨(dú)家編譯,未經(jīng)許可拒絕轉(zhuǎn)載!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。