丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給栗峰
發(fā)送

0

一條妙計(jì)確保你的AI模型總是有幫助

本文作者: 栗峰 2019-09-15 18:32
導(dǎo)語:回答天氣冷暖比回答空氣分子的熵有用,AI也是一樣

雷鋒網(wǎng)AI科技評論編者按:當(dāng)我們在討論溫度的時(shí)候,我們不會(huì)認(rèn)為自己扔掉了大量的信息。如果我問某人外面有多熱,他們開始列舉各種空氣粒子的位置和速度來說明,那我會(huì)趕緊走開。

現(xiàn)實(shí)是,作為人類,我們對“能提供充足信息”和“有用”之間的區(qū)別有著與生俱來的理解能力。我們會(huì)告訴別人外面很熱,但不會(huì)說它的溫度是38.94攝氏度,這樣既不麻煩又能說明問題。這種刪減和總結(jié)信息的行為是預(yù)測的本質(zhì),在本文中,我將解釋如何定義、度量(近似)和利用這一過程來改進(jìn)預(yù)測模型和人工智能(以及在預(yù)測天氣這樣的問題中給出正確的答案)。

一條妙計(jì)確保你的AI模型總是有幫助

圖1

1.玻爾茲曼對熵的理解


沒有什么比一個(gè)好的理論更實(shí)際的了。


                                                                                                            - 路德維?!げ柶澛?/span>

 如果你熟悉熵的概念,你可能已經(jīng)了解了其中一兩個(gè)系統(tǒng)的定義(例如熱力學(xué)熵,信息熵,等等)。不然的話,別人會(huì)告訴你它其實(shí)是一種“隨機(jī)性”的衡量標(biāo)準(zhǔn)(定義隨機(jī)性是另一個(gè)主題)。(雷鋒網(wǎng))

我認(rèn)為熵的定義有很多種,所有這些定義描述的都很詳細(xì),在不同的情境中都多多少少有用(盡管我通常反對將其稱為是一種“隨機(jī)性”的衡量標(biāo)準(zhǔn))。我最喜歡的定義之一,最早是在1875年左右由天才路德維?!げ柶澛?Ludwig Boltzmann)提出的,現(xiàn)在通常被稱為玻爾茲曼熵或是玻爾茲曼熵公式。

玻爾茲曼認(rèn)為,熵與微觀狀態(tài)和宏觀狀態(tài)之間的關(guān)系直接相關(guān)。對于系統(tǒng)給定的任何宏觀上的描述,如果能與更多的微觀狀態(tài)下的描述相結(jié)合,熵就會(huì)更高。這個(gè)理論最初提出的時(shí)候是用來描述容器中的氣體例子的,在這個(gè)情境中會(huì)比較容易理解它的含義。

一條妙計(jì)確保你的AI模型總是有幫助

 圖2:摘要中增加了熵,并創(chuàng)建了方向性

在左側(cè),這個(gè)系統(tǒng)的微觀狀態(tài)被定義為:容器中所有氣體粒子的速度、質(zhì)量和位置(這是非常具體的描述)。相反,在右側(cè),將微觀狀態(tài)概括為溫度,就產(chǎn)生了一種可能的宏觀狀態(tài)(這個(gè)描述就不那么具體了)。在宏觀狀態(tài)下有一些非常有趣的特性:它是不可逆的(你不能只根據(jù)溫度這一個(gè)條件就對所有粒子進(jìn)行完全描述);它不那么復(fù)雜(信息少所以得到的結(jié)論也少);但它仍然是準(zhǔn)確的(容器真的是38.94攝氏度);最重要的是,它不太具體(不止一個(gè)微觀狀態(tài)適合它)。

 一條妙計(jì)確保你的AI模型總是有幫助

圖3:給定的宏觀狀態(tài)將具有多個(gè)與其兼容的微觀狀態(tài)。

這就是玻爾茲曼熵的關(guān)鍵:每個(gè)宏觀狀態(tài)都有許多與之兼容的微觀狀態(tài)。定義溫度的方式意味著顯示在左側(cè)(上圖所示)的三個(gè)容器中的任何一個(gè)都會(huì)產(chǎn)生相同的溫度。這種微觀狀態(tài)越多,熵就越大:“這個(gè)容器的溫度為38.94°C”。

盡管溫度這個(gè)條件很普遍,但它并不是玻爾茲曼熵唯一適用的方面。任何人與人之間的對話中都包含高熵語句,人們會(huì)仔細(xì)選擇具有描述性的語句,同時(shí)也不會(huì)太過具體。例如,我可以將這篇文章的縮略圖描述為“一副內(nèi)容是蒙娜麗莎的剪貼畫,可以重復(fù)使用”(它確實(shí)是這樣的)。但是,假若你還沒有看到這個(gè)特定的圖像,那么這些微觀狀態(tài)中的任何一項(xiàng)都可能同樣適合該宏觀狀態(tài):

 一條妙計(jì)確保你的AI模型總是有幫助

圖4:所有這些都可以對應(yīng)“一副內(nèi)容是蒙娜麗莎的剪貼畫,可以重復(fù)使用”。

經(jīng)過這個(gè)例子的說明,很明顯可以看到,熵可以出現(xiàn)在意想不到的地方,但到目前為止,我們還沒有采取任何措施將其與AI或預(yù)測聯(lián)系起來。在此之前,我們先來聊聊地圖。

2.地圖中存在的問題

 

“以貓為例,貓最好的物質(zhì)模型是另一只貓,或者說最好是一只完全相同的貓?!?/strong>

 

- Norbert Wiener,科學(xué)哲學(xué)(1945)

我們來做一個(gè)小小的思考實(shí)驗(yàn)。 想象一下,我問你去多倫多那個(gè)奇怪的新加菲貓主題披薩店的路線,但我們倆都沒有手機(jī),我只有紙和筆。如果你知道怎么走,那你可能不會(huì)猶豫,你畫出來的地圖看起來會(huì)像是這樣:

一條妙計(jì)確保你的AI模型總是有幫助

 圖5

對我們倆來說不好的一點(diǎn)的是,我很容易被搞糊涂。我必須繼續(xù)詢問:“北是哪邊?”

你只能郁悶的嘆口氣并繼續(xù)補(bǔ)充

一條妙計(jì)確保你的AI模型總是有幫助

 圖6:我想這些已經(jīng)畫的已經(jīng)夠多得了

你可能已經(jīng)能看出來這是什么意思了,但我還在要求更為詳細(xì)的說明。直到最后,你的地圖看起來很可能會(huì)像這樣: 

一條妙計(jì)確保你的AI模型總是有幫助圖7:這是真正的餐廳

你為了讓我了解清楚兒增加了很多的細(xì)節(jié),但其實(shí)其中的絕大部分都是毫無意義的,地圖的意圖是引導(dǎo)我去吃美味的千層面披薩。事實(shí)上,如果我們繼續(xù)這樣下去,我們最終會(huì)意識(shí)到,一份最準(zhǔn)確、最具描述性、最完整的覓食地圖其實(shí)就是整個(gè)地區(qū)的一比一復(fù)制品,餐廳里面也坐滿了急急忙忙吃東西顧不上說話的人。如果你要靠地圖來導(dǎo)航,那地圖里的信息需要比真實(shí)地區(qū)的信息少一些。如果這張地圖和這個(gè)地方本身的熵值是一樣的,那么對我來說沒有任何幫助。

模型的實(shí)用價(jià)值介于完整的描述和抽象的草圖之間。如果你不相信我,只需看看多倫多市的地圖和多倫多的地鐵圖上顯示的內(nèi)容有什么不同:

一條妙計(jì)確保你的AI模型總是有幫助

圖8:來自MapTO分析的地圖 http://www.mapto.ca/maps/2017/5/9/the-newest-ttc-map-is-distorted

如果把地圖上顯示的路線做一些扭曲,把一些路線多重疊交叉了那么幾次(改變了拓?fù)浣Y(jié)構(gòu)),那么它就不再是一個(gè)有用的工具了。然而,以正確的方式扭曲它,忽視關(guān)于尺度和距離的信息,地圖將會(huì)變得更加有用,可以快速了解在下車前剩下多少站點(diǎn)。在對系統(tǒng)進(jìn)行建模時(shí),它應(yīng)該包含盡可能少的細(xì)節(jié),以便能最大限度的達(dá)到預(yù)期目的。

[我強(qiáng)烈建議你在Twitter上使用@mapTOdotca,如果你想要了解地圖的話]

3.天氣的狀況


預(yù)測是困難的。尤其是關(guān)于未來的預(yù)測

 

-Niels Bohr

你對明天的天氣做出的最準(zhǔn)確的預(yù)測是什么?當(dāng)那個(gè)重要的日子(明天)來臨的時(shí)候,什么樣的預(yù)測最有可能實(shí)現(xiàn)。

  • 天氣晴朗,最高溫度27°C,最低溫度18°C,伴隨漲潮和海洋變暖

  • 下午2時(shí)至4時(shí)將有2mm的降水。

  • 氣溫會(huì)比昨天有所上升

  • 以上全部

當(dāng)然,這個(gè)問題的答案取決于你對天氣的了解,以及隨著時(shí)間的推移天氣它會(huì)如何發(fā)揮作用,但如果你沒有任何預(yù)測天氣的能力,你最好的選擇是選項(xiàng)#3,即氣溫會(huì)比昨天有所上升。與其他預(yù)測相比,這一預(yù)測具有很高的熵。會(huì)有許多天氣的微狀態(tài)與“氣溫比昨天有所上升”這個(gè)預(yù)測相兼容。

如果你嘗試預(yù)測天氣,并不一定需要低熵預(yù)測。如果你在考慮是否應(yīng)該帶雨傘去上班,你只需要知道今天是否會(huì)下雨。如果你在耕作,你可能需要更少的熵:那里的總降雨量是多少?

在所有這些不同的天氣預(yù)測例子中,有一點(diǎn)是不變的,預(yù)測總是需要比用于生成預(yù)測和/或模型的高度詳細(xì)的數(shù)據(jù)具有更多的熵。

4.總結(jié)謬誤


 混亂是一條階梯


 - Littlefinger

每當(dāng)我開始建模的時(shí)候,我首先花一些時(shí)間嘗試把我的問題都按照詳細(xì)程度在一個(gè)梯子上從下到上列出來。我這么做的原因是為了避免陷入總結(jié)謬誤:相信你做出的有用的預(yù)測的熵和你的數(shù)據(jù)的熵在同一水平上。要避免這個(gè)謬誤只需要一條規(guī)則,它不困難,但是很有用:總是向梯子的上方做預(yù)測。始終在比用于生成預(yù)測的數(shù)據(jù)更高的熵水平上進(jìn)行預(yù)測。

一條妙計(jì)確保你的AI模型總是有幫助

圖9

現(xiàn)在,在我自己的日常生活中,這通常與預(yù)測小分子藥物和蛋白質(zhì)之間的相互作用有關(guān)。如果我說來自高分辨率晶體結(jié)構(gòu)的詳細(xì)結(jié)構(gòu)數(shù)據(jù)是我在1級(jí)的輸入數(shù)據(jù),那么我可以用它來構(gòu)建能夠預(yù)測更高層次的東西的模型。這些信息非常詳細(xì),它描述了蛋白質(zhì)和藥物相互作用時(shí)所有原子的位置。

 一條妙計(jì)確保你的AI模型總是有幫助

圖10:如此美麗的低熵蛋白質(zhì)和藥物結(jié)構(gòu),藥物結(jié)構(gòu)用粉紅色來表示。

我預(yù)測的內(nèi)容比較少,例如:小分子藥物X與蛋白X相互作用嗎?這類似于使用關(guān)于粒子的詳細(xì)信息來了解溫度與容器處于“熱”或“不熱”之間的關(guān)系。這樣,在未來,如果我給我的模型設(shè)定一個(gè)溫度,它將預(yù)測“熱”。在這種情況下,我的模型只是預(yù)測“是的,這種藥物會(huì)以某種方式與這種蛋白質(zhì)相互作用?!比绻蚁朐O(shè)計(jì)一種更好的藥物,這個(gè)二元預(yù)測對我來說仍然是有用的,但它還不夠詳細(xì),無法重建特定的原子用以預(yù)測交互的細(xì)節(jié)。如果我的模型那么做了,那我是不會(huì)相信的。一般來說,你只應(yīng)該爬上梯子,而不是再次退下來進(jìn)行預(yù)測。這就是總結(jié)謬誤。

5.最后的思考

 

 “所有的模型都是有錯(cuò)誤的,但其中有一些是有用的”

 

- George Box

如果你像我一樣,會(huì)花很多時(shí)間來考慮自己的模型,或者嘗試使用和理解其他人的模型,那么我希望你發(fā)現(xiàn)的東西是有用的。最重要的是要記住,即使目前在大肆宣傳的人工智能和機(jī)器學(xué)習(xí),人工智能仍然是有局限性的。理解和尊重這些限制條件并不會(huì)阻礙你,相反,它會(huì)讓你專注于真正重要的事情:什么對你有用?(雷鋒網(wǎng))

順便,記得天氣預(yù)報(bào)要做簡單一點(diǎn)。

原文鏈接:https://towardsdatascience.com/when-is-ai-trustworthy-when-is-ai-useful-215aaee24a6f

拓展閱讀:The User Illusion by Tor N?rretranders(文章鏈接:https://www.penguinrandomhouse.com/books/330619/the-user-illusion-by-tor-norretranders/9780140230123)其中定義了一個(gè)叫“exformation”的概念。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

一條妙計(jì)確保你的AI模型總是有幫助

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄