向量將死，哈希是 AI 未來(lái)

本文作者：我在思考中

2021-10-09 17:16

導(dǎo)語(yǔ)：AI未來(lái)——哈希背后的運(yùn)用邏輯

作者 | Hamish Ogilvy

編譯 | 冉啟行

校對(duì) | 青暮

人工智能是建立在向量算法的基礎(chǔ)上的，但最新的進(jìn)展表明，對(duì)于某些 AI 應(yīng)用程序而言，它們可以使用其他二進(jìn)制來(lái)表示（例如神經(jīng)哈希），以提供更小的內(nèi)存占用和更快的反饋速度。

事實(shí)上，人工智能的許多領(lǐng)域都可以從向量變?yōu)榛诠５慕Y(jié)構(gòu)，帶來(lái)飛躍的提升。本文將簡(jiǎn)要介紹哈希背后的應(yīng)用邏輯，以及它為什么可能會(huì)成為 AI 的未來(lái)。

哈希

哈希函數(shù)(Hash function)：一個(gè)哈希函數(shù)H(x)可用于將任意大小的數(shù)據(jù) x 映射成固定大?。ㄍǔ＿x256bit）的值。返回值(映射后的值)又稱為哈希值（hash values）、摘要（digests）或哈希（simply hashes）。

向量將死，哈希是 AI 未來(lái)

哈希在數(shù)據(jù)的準(zhǔn)確性識(shí)別、數(shù)據(jù)存儲(chǔ)大小、性能、檢索速度等方面具有突出的優(yōu)勢(shì)。更重要的是，它們本質(zhì)上是概率性的，因此多個(gè)輸入項(xiàng)可以共享相同的哈希值。

在向量表示中，浮點(diǎn)數(shù)往往是首選的數(shù)據(jù)表示形式，盡管它們?cè)诒举|(zhì)上比哈希更絕對(duì)，但它們卻并不精確。

浮點(diǎn)數(shù)

要了解 AI，首先需要了解計(jì)算機(jī)是如何表示非整數(shù)數(shù)字的。

對(duì)于微小的數(shù)值變化(關(guān)于向量計(jì)算)，二進(jìn)制表示也可以有很大的不同，這些數(shù)值變化對(duì)模型預(yù)測(cè)幾乎沒有影響。

例如：取 0.65 vs 0.66 在 float64（64 位浮點(diǎn)）二進(jìn)制中可以分別用這兩個(gè)二進(jìn)制數(shù)表示：

11111111100100110011001100110011001100110011001100110011001101
11111111100101000111101011100001010001111010111000010100011111

從這里可以非常清楚看到，雖然從 0.65 到 0.66 僅僅只有 1% 的大小變化，但是轉(zhuǎn)化為二進(jìn)制后，在 64 位數(shù)字中就有 25 位是不同的，差別巨大。

對(duì)于神經(jīng)元來(lái)說(shuō)，這聽起來(lái)像是一件愚蠢的事情，人類的大腦肯定不會(huì)這樣工作，它們顯然不會(huì)使用浮點(diǎn)二進(jìn)制表示來(lái)存儲(chǔ)數(shù)字，除非有人可以記住圓周率小數(shù)點(diǎn)后六萬(wàn)多位。

事實(shí)上，我們的大腦神經(jīng)網(wǎng)絡(luò)是非常形象的，在處理復(fù)雜的小數(shù)和分?jǐn)?shù)方面非常擅長(zhǎng)。但是，當(dāng)我們算到一半或四分之一時(shí)，就會(huì)立即想象出一些東西，比如半杯水、四分之一杯水或者披薩等其他東西，可能根本沒有想到尾數(shù)和指數(shù)。

一個(gè)常用的提高浮點(diǎn)運(yùn)算速度和使用更少空間的方法是將分辨率降低到 float16（16位），甚至是float8 （8位），它們的計(jì)算速度非?？?，但缺點(diǎn)是，它會(huì)造成分辨率的明顯下降。

由于浮點(diǎn)數(shù)運(yùn)算很慢，所以它真的沒有一點(diǎn)優(yōu)勢(shì)嗎？

答案是否定的。芯片硬件和它們的指令集被設(shè)計(jì)來(lái)提高效率，并使更多的計(jì)算并行處理，而 GPU 和 TPU 現(xiàn)在正在被廣泛使用，因?yàn)樗鼈兲幚砘诟↑c(diǎn)的矢量算法更快。

神經(jīng)哈希

事實(shí)證明，二進(jìn)制的計(jì)算速度比基于浮點(diǎn)數(shù)的算術(shù)快得多。那么，如果可以在局域敏感的二進(jìn)制哈?？臻g中表示 0.65 和 0.66，這能使模型在推理方面更快嗎?

研究表明，有一系列哈希算法的確可以做到這一點(diǎn)，它被稱為局部敏感哈希（LSH）。原始項(xiàng)越接近，其哈希中的位也越接近相同。

向量將死，哈希是 AI 未來(lái)

不過(guò)，這個(gè)概念并不是什么新鮮事，只是最新的技術(shù)發(fā)現(xiàn)了更多的優(yōu)勢(shì)。從歷史上來(lái)看，LSH 使用了諸如隨機(jī)投影、量化等技術(shù)，但它們的缺點(diǎn)是需要較大的哈?？臻g來(lái)保持精度，因此其優(yōu)點(diǎn)在某種程度上被抵消了。

對(duì)于單個(gè)浮點(diǎn)數(shù)來(lái)說(shuō)這是微不足道的，但是具有高維數(shù)（多個(gè)浮點(diǎn)數(shù)）的向量呢？

因此，神經(jīng)哈希的新技巧是用神經(jīng)網(wǎng)絡(luò)創(chuàng)建的哈希替換現(xiàn)有的 LSH 技術(shù)，以此得到的哈希值可以使用非?？焖俚?Hammin 距離計(jì)算來(lái)估計(jì)它們的相似度。

這聽起來(lái)雖然很復(fù)雜，但實(shí)際上并不太難?？傮w來(lái)看，神經(jīng)網(wǎng)絡(luò)就是優(yōu)化了一個(gè)哈希函數(shù)，具體表現(xiàn)如下：

與原始向量相比，幾乎完美地保留了所有的信息；
生成比原始向量尺寸小得多的哈希；
計(jì)算速度明顯更快；

也就是說(shuō)，以一種較小的二進(jìn)制表示，它不僅可用于非常快速的邏輯計(jì)算，并且信息分辨率也是幾乎不變的，是一個(gè)兩全其美的解決方案。

一般研究用于密集信息檢索近似最近鄰（ANN）時(shí)，往往可以使用向量表示來(lái)搜索信息，這樣可以幫助用戶找到概念上相似的一些東西。但是，哈希中的局部敏感性卻擁有更加強(qiáng)大的優(yōu)勢(shì)。

密集信息檢索

互聯(lián)網(wǎng)時(shí)代，數(shù)據(jù)庫(kù)是不可計(jì)數(shù)的，但搜索索引卻寥寥無(wú)幾，而且大多數(shù)索引都是基于相同的老技術(shù)，這主要是因?yàn)闅v史上語(yǔ)言是一個(gè)基于規(guī)則的問(wèn)題。

標(biāo)記、同義詞、詞干提取、詞形還原等問(wèn)題占據(jù)了許多天才的整個(gè)職業(yè)生涯，但仍未完全解決。

谷歌創(chuàng)始人拉里佩奇（Larry Page）曾說(shuō)過(guò)，在我們的有生之年，“搜索”并不能得到解決。

向量將死，哈希是 AI 未來(lái)

想想看，這一代如此絕頂聰明的人，投資數(shù)十億美元為何還得不到解決？

很明顯，搜索技術(shù)落后于數(shù)據(jù)庫(kù)主要是由于語(yǔ)言問(wèn)題，我們?cè)谶^(guò)去幾年中看到了語(yǔ)言處理方面的革命，而且還在加速。并且從技術(shù)角度來(lái)看，我們還將看到基于神經(jīng)的哈希消除搜索和數(shù)據(jù)庫(kù)技術(shù)的障礙。

參考來(lái)源：https://medium.com/@hamishogilvy/vectors-are-over-hashes-are-the-future-of-ai-98c4dc33d8ee

向量將死，哈希是 AI 未來(lái)