丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術(shù) 正文
發(fā)私信給DonFJ
發(fā)送

0

評價指標為何如此必要?有哪些設計之道?

本文作者: DonFJ 2020-06-06 16:52
導語:數(shù)據(jù)科學項老炮兒聊評價指標的必要性和設計之道~

生逢這個效率和利益無比珍貴的時代,萬事萬物都需要準確的“評價”和“度量”。就像看到一幅油畫,我們會評估它的筆觸;入手一款香水,我們會品味它的前中后調(diào);交往一位異性,我們會感受ta的溫柔、曲線或棱角(是的!)。甚至是對于自身,我們也有著一系列的度量方法和評價指標。

這些指標定量地描述了世界,理性地構(gòu)成了我們對于所處環(huán)境和所遇事物的認知。它們是世間萬物的影子,是我們洞悉世界的鏡頭,也是監(jiān)督和改變目標事物的方式。

本文作者作為在幾十個數(shù)據(jù)科學項目上戰(zhàn)斗了好幾年的老炮兒,希望通過這篇文章跟大家聊聊他心中的“評價指標設計之道”。

簡單來說,他認為評價指標的設計共有5個關(guān)鍵點:代價成本、簡潔性、可信性、準確性和因果相關(guān)性。它們之間的權(quán)衡與取舍決定了所設計的評價指標的側(cè)重方向,它們也是評價指標的設計過程中最核心的考慮因素。

評價指標為何如此必要?有哪些設計之道?

一、評價指標的重要性

無數(shù)個日夜里,我都在思考著“評價指標”這個神奇的家伙。我覺得評價指標和對應的度量方法是構(gòu)成現(xiàn)代科學的基礎,也是促進現(xiàn)代社會、政策和商業(yè)等領(lǐng)域發(fā)展的關(guān)鍵技術(shù)。舉例來說,人類的航海和遠征事業(yè)一直受到時間記錄方法的限制,直到我們發(fā)明了更加精準的時間記錄方法之后,人類才能繪制出整個大陸乃至世界的恢弘地圖;再例如天文學原本長期處于牛郎織女和圣斗士星矢的神話水平,直到十分系統(tǒng)的天文觀測記錄技術(shù)才為其帶來了革命性的進步;而在流行病學領(lǐng)域,也只有當約翰斯諾用筆建立了霍亂病人傳播的擴散圖時,人們才明白這場攪得大英帝國天翻地覆的傳染病是由水源引起的。正所謂工欲善其事必先利其器,只有當我們對所研究問題構(gòu)建起正確的記錄方法和衡量方法,其本質(zhì)和內(nèi)在規(guī)律才能夠被剖析出來,人們也才能有的放矢地對其進行研究并加以解決。

評價指標對于現(xiàn)代科學有多重要呢,請看這里

時間記錄方式之于遠征事業(yè)的影響請戳這里

系統(tǒng)的天文記錄技術(shù)之于天文學的影響看看吧

約翰斯諾的霍亂傳播地圖

曾幾何時,集體投資是個玄學。面對金融界風云莫測的時局以及浩如星海的商海變數(shù),人們往往無法準確鎖定投資目標。但是當人們建立了合理的評價和測量標準,投資人就只需要將注意力放在選定尺度上的那些特定屬性上,大大提高了投資的成功率。當然也正是因此,我們也才能創(chuàng)造出高效的分布式感知系統(tǒng)(Distributed Perceptual System)。度量和評價指標正在逐漸成為我們生活的一部分,當我們跟朋友聊起正在發(fā)生的事情的時候,當我們根據(jù)當前形勢進行決策的時候,度量跟評價標準都會高頻率的出現(xiàn)在我們的語言之中。它潛移默化的影響著我們。

其實說起度量方法和評價指標,它最厲害的地方在于能對目標內(nèi)部組織的協(xié)調(diào)過程進行量化和描述。在生活中,我們會對自己所珍視和關(guān)注的事物格外關(guān)心;而在研究和建模時,我們也應小心地選擇和設計度量方法和評價標準。就好像在爬山的時候,我們會根據(jù)山丘的拓撲結(jié)構(gòu)(其實就是陡峭程度啦)和y標度(y-scale)來選擇較易攀爬的路線。但僅僅這樣是不夠的,我們還應同時將各種風險和不利因素(濕滑程度、巖石風化程度等等)考慮進去,綜合形成一套統(tǒng)一的登山路線度量方式和評價指標。我們希望這個指標既能夠?qū)τ欣谂实堑囊蛩剡M行正向的表示,也能夠?qū)Σ焕谂实堑奈kU因素進行負值編碼。

二、評價指標的五大要素

在設計一個評價指標的時候,我們一定要時刻銘記5個關(guān)鍵點:代價成本、簡潔性、可信性、準確性和因果相關(guān)性。對于這幾個關(guān)鍵點的提升能夠直接幫助后續(xù)產(chǎn)品的改進、用戶體驗的提升,也能幫我們在各種左右為難的權(quán)衡局面中做出合理和自然的取舍。當然了,這5個關(guān)鍵點不僅用于商業(yè)和數(shù)學場景,也能應用于其他領(lǐng)域中。在本文中,因為我的老本行是產(chǎn)品開發(fā),所以在介紹中會更多的以統(tǒng)計和因果特性角度對這5個問題進行描述。

代價與成本

咱們先從代價和成本說起,因為它們是評價指標中最容易被忽略的方面。俗話說,有錢能使鬼推磨。只要你有錢、愿意付出足夠的“成本”和“代價”,那這個世界上幾乎任何事都能被量化和評估出來。這個“代價”或者“成本”可能是錢、可能是時間、可能是員工時間、用戶時間(就是占用用戶時間讓他們做特定事情)、計算量或者技術(shù)和債權(quán)等等。在研究問題時,當我們考慮成本因素時,便自然而然地需要對所研究事物的決策進行一定的權(quán)衡和取舍了。但是據(jù)我觀察,人們在設計度量方法的時候,總是喜歡使用包含人類主觀標記信息、用戶調(diào)查報告或者外源性的數(shù)據(jù)集。不是說不好,而是這些信息源都會給評價標準的設計引入大量的復雜性、延遲和誤差,我們稱之為“噪聲”。

雖然在我們的印象中,代價和成本通常是一個固定的、有限制力的約束條件,它相對來說很穩(wěn)定,不會根據(jù)外界呈現(xiàn)巨大的波動。但其實在很多情況下,我們能夠通過多付出一些成本的方式“作弊”,從而讓評價指標的結(jié)果得分變得更加漂亮。換句話說,我們能夠通過付出時間、金錢或者一些額外的代價來得到更好的評估結(jié)果。這種成本和結(jié)果之間的折衷很難處理,因為評價方法的改變也能帶來評估結(jié)果的受益,這個收益也要加入評估結(jié)果當中。而且評估方法的改變會產(chǎn)生蝴蝶效應,其下游產(chǎn)品勢必會產(chǎn)生連鎖反應,這個影響所帶來的受益或者損失也要考慮進去……emm,錯綜復雜。

簡潔性 

評價指標為何如此必要?有哪些設計之道?

評價指標是人設計的嘛,人天生喜歡簡單明了的東西:數(shù)學領(lǐng)域稱之為公式之美,計算機科學稱之為代碼簡潔之道,異性們稱之為直爽……亦或性感。不好的評價指標往往充斥著人們對于所描述事物的不信任和二次猜忌,也會因為忽略了事物的某些特征而讓評價指標不夠全面。通過實踐總結(jié),我關(guān)注到規(guī)則化(Normalization)通常是一個不錯的技術(shù),它能讓問題的描述和考慮的方面更加的集中、不冗余,從而構(gòu)建出一個性能優(yōu)越的評價方法。而通過組合方式(Combination)疊加出來評價標準通常不怎么樣(因為組合之后要考慮的東西更多,我們評估的時候就特別不容易集中到關(guān)鍵上)。比如在體育賽事的技術(shù)數(shù)據(jù)分析環(huán)節(jié)中,人們會發(fā)現(xiàn)在評價指標中添加某某率(比如擊球的成功率、上壘的成功率、三分命中率,就是用原本的數(shù)值除以一個整體的次數(shù))或者考慮比賽的環(huán)境背景(主場優(yōu)勢之類)因素來評價某個球隊的表現(xiàn)是很有效的。但是一股腦兒的將擊球率、出手次數(shù)也放到評價標準里顯然沒啥用,因為沒人覺得擊球率也能和本壘打能有半毛錢關(guān)系。

哦對了,雖然規(guī)則化很有效,但是找到規(guī)則化項中“某某率”的分母通常是很難的。有多難呢?瞅瞅人家怎么說:https://twitter.com/fredbenenson/status/370222055083753473

有一次在項目中,我想用所謂的“模型化度量(Modeled Metrics)”來降低模型對于簡單化的硬性標準(技術(shù)上來說就是輸出統(tǒng)計模型,從而平滑并提高估計的準確性)。但很可惜,它們都沒能完全成功。機器學習領(lǐng)域有個定律叫“沒有免費的午餐”嘛,當我們犧牲了簡單性,那相應的就會在所研究的其他問題和特性上產(chǎn)生變動并引入不確定性。 

評價指標為何如此必要?有哪些設計之道?

可信性

雖然人們絞盡腦汁地想設計出高效的評價指標,但是很遺憾,世界就是這么殘酷,一多半的工作都不能準確表達出我們所關(guān)心的事物和概念。在我的經(jīng)驗里,兩種情況下設計的評價指標效果極差:第一個是缺乏結(jié)構(gòu)有效性的設計,第二個是數(shù)據(jù)集帶有某種抽樣偏差的情況。其中缺乏結(jié)構(gòu)有效性的設計是指,這個指標所度量的東西跟我們關(guān)心的目標根本不是一碼事兒的情況,驢唇不對馬嘴,無法構(gòu)成有效的度量;而抽樣的偏差是指我們數(shù)據(jù)集中的樣本和事物本身的分布不匹配的情況,采樣的偏差會讓我們關(guān)注到事物的那些沒什么用的方面,從而忽略了數(shù)據(jù)的重要特征。

在實踐中,簡單性、低成本和構(gòu)造的有效性通常是對立的,此消彼長。我們通常會為了追求簡單和低成本性而破壞了構(gòu)造的有效性。很多公司或團隊在這個方面投入了大量的人力物力,力求得到完美的平衡。結(jié)構(gòu)有效性設計的一個難點在于它其中使用的人類標記信息。人類都具有主觀偏差性,每個人在標記過程中的準則和標準都可能有所差異,可能A童鞋將這個標簽標記為1,B童鞋就認為應該標記為2。每個人對于標簽的理解都存在著主觀性和差異性。

這種因人而異的主觀性和差異性具體請戳:

https://twitter.com/seanjtaylor/status/1090320775901409280

除了人類標記信息外,還有一種十分主觀且伴隨著噪聲的信息會影響評價指標的客觀性,就是用戶反饋。用戶的反饋五花八門,比如調(diào)研報告、缺陷報告和眾包標簽等等,我們在利用數(shù)據(jù)的時候很難判斷這個人到底能不能代表我們關(guān)心的目標人群,不知道他摻入了多少主觀因素,更不知道他到底認真反饋了沒有。如果我們不能保證用戶反饋體現(xiàn)了嚴格數(shù)學意義上的隨機抽樣,那我們可能永遠無法解決這個問題。因此,在設計評價指標的時候我們就必須接受并容忍這個誤差源。需要注意的是,即便是特別簡單的二分類標簽,比如抖音上“喜歡”和“不喜歡”,也可能會因為用戶的參與率和調(diào)查涵蓋面的問題而引入較大偏差,那此時我們的樣本集就可能會出現(xiàn)以偏概全的現(xiàn)象。我們將這種現(xiàn)象稱為“度量信度”問題。

這里我們列舉兩個低度量信度的例子:

1. 廣告的點擊量和銷售額沒什么聯(lián)系。如果我們用廣告的點擊率作為銷售額的衡量標準,那可能會出現(xiàn)南轅北轍的現(xiàn)象,因為根據(jù)統(tǒng)計,它們兩個壓根兒沒有關(guān)聯(lián)。如果算法只使用廣告點擊率作為評價指標,那它可能會去優(yōu)化一個跟銷售總額不相關(guān)的目標函數(shù)。要知道,廣告的點擊者和購買者可能是兩撥不同的人。

不信的話戳這里看看

2. 微博文字的情緒和作者真實情緒間相關(guān)性很低。微博上感傷文字的主人可能是個樂天派,陽光文學的作者可能是個傷痕累累的文藝青年呢。如果你想通過人們的Twitter和Facebook帖子衡量他們的幸福感,那很可能老鐵,你就弄錯了。

真的這么精分嗎?請戳這里看看。

準確性

評價指標為何如此必要?有哪些設計之道?

準確性應該是五個重要指標中最容易理解的那個了。毋庸置疑,準確性越高越好。不好的度量方法會導致數(shù)據(jù)中的噪聲和有效值混到一起的現(xiàn)象,從而無法區(qū)分。換句話說,在這種情況下我們沒法通過控制變量來對所研究問題進行評估了。當我們調(diào)整一個參數(shù)的時候,結(jié)果在變;我們不調(diào)整它的時候,結(jié)果還是在變。如此一來我們就糊涂了,不知道結(jié)果的改變是由參數(shù)的調(diào)整所引發(fā),還是因為噪聲所致。這里我列舉了三個關(guān)于精確度指標的注意事項:

1. 我們能夠通過數(shù)學變化對評價指標的結(jié)果進行干預,從而提升精確度。數(shù)學變換包括對數(shù)計算、尾處理或者一些其他的高級技術(shù)。

尾處理技術(shù)戳這里

更高級的處理技術(shù)戳這里

2. 規(guī)則化能夠大幅提高度量的精確度。比如在評價指標的計算中,如果分子是有偏差的,那我們通過規(guī)則化能夠讓分母也具有類似的偏差。如此一來,這個偏差會被約分,比值結(jié)果的方差便會縮小(難道這就是所謂的以毒攻毒)。通過規(guī)則化能夠降低度量方法的方差。

3. 對多個評價標準進行求和或均值操作能夠提高精度。不同的度量方法就是從不同的角度對事物進行觀測,如果我們能夠?qū)δ繕耸录M行多種不相關(guān)的觀測,那它們的組合結(jié)果就會比單獨觀測的結(jié)果更加穩(wěn)定,也就不會充斥著那么多噪聲了。但代價是模型的簡單性會降低,也可能會減少因果關(guān)系的相關(guān)性。

評價方法的精確性和可信性間往往存在內(nèi)在的權(quán)衡。比如說在商業(yè)場景中,財務結(jié)果(比如銷售額、收入或利潤)的評價指標可能包含很多造噪聲,這是因為數(shù)據(jù)分布的傾斜性所致的。當我們鎖定變量,僅對其中的一位客戶或某一宗交易進行離散的計算時,結(jié)果就會具有較小的方差了。

因果的相關(guān)性

評價指標為何如此必要?有哪些設計之道?

好的度量方法還需要有一個特點就是能被人類刻意控制。Deng和Shi在2016年定義了一個很有意思的概念,叫做靈敏度,它由上一節(jié)我們提到的精度性和典型效果尺寸(Typical Effect Sizes)組成。我覺得應該將這兩個屬性分開,分別考慮。于是我使用相關(guān)性(Proximity)來描述我們設計的評價指標與人為更改變量在因果空間上的近似程度。

具體了解靈敏度請戳這里

當評價指標和人為因素之間的因果的相關(guān)性很低時,人們通常不會根據(jù)產(chǎn)品的變化經(jīng)常性的修改評價指標,因為你要對評價指標進行干預的話是需要經(jīng)過很長一個因果關(guān)系鏈才能完成的。而這個鏈條太長、太晦澀了,相關(guān)度太低了。通常來說,如果因果關(guān)系性很低的話,我們只能使用利潤或者收入這個簡單粗暴的最終指標衡量大多數(shù)產(chǎn)品的變化效果,但是這個衡量通常是無效的。我們必須建立一個具有更高相關(guān)性的評價指標,并嘗試通過某種理論來說明這對于可信性的影響是多么的有效。

這個理論被稱為代理度量(Proxy Metric)。這個代理度量的具體數(shù)學內(nèi)涵可能不是本文關(guān)心的重點(要是真寫也沒人看了哈哈),但是我們能夠通過它對可信性的影響程度進行評估。對于我們所關(guān)心事物的長鏈輸出影響,最近有研究提出使用替代指標(Surrogate Indices)進行描述。在這個方法中,我們可以通過使用短期指標的輸出來更靠譜地估計長期輸出的結(jié)果。

替代指標的介紹請戳這里。

對了,物極必反,因果相相關(guān)性太高的話也是不可取的。因為誰想要一塊一成不變的木頭來體現(xiàn)當下的變化呢?評價指標中適當?shù)拿舾行阅軒椭藗兏玫乩斫饪煽貐?shù)為結(jié)果和評價所帶來的影響(也叫操作檢查Manipulation Checks),從而能夠評估我們的假設和處理操作能否引起正確的反應。只有這樣,我們才可以將評價指標作為一個監(jiān)視器,從而建立起“改變-反饋”的鏈條來指導生活并服務當下。

操作檢查的解釋請戳這里

高貴性

評價指標為何如此必要?有哪些設計之道?

作為一個評級指標,其高貴性一定要得到充分的體現(xiàn)。畢竟萬事萬物皆有靈性,如果我們無法給予評價指標足夠的尊重、尊嚴和自豪感,那么它……算了,我編不下去了哈哈哈,這條是開玩笑的哈,別當真老鐵。

三、評價指標的設計過程

根據(jù)我的經(jīng)驗,評價指標的設計是一個來回迭代性的過程,它是多方參與者在一個較長時間內(nèi)的合作、總結(jié)和權(quán)衡的漫長過程。下面這張圖是一個理想情況下的評價指標設計流程。我們可以看到,它實際上是一堆循環(huán)的嵌套,我們甚至在某些特殊情況下會陷入死循環(huán)的窘境。這是因為評價指標的設計沒有一定之規(guī),它的變數(shù)太大、問題太多、可能的解決方法也千奇百怪。這個流程圖也只能幫助我們“以管窺豹”,大概了解評價指標的設計之道。

設計評價指標的過程有時候就像寫代碼一樣,我們要經(jīng)歷寫代碼、樣例測試、重新評估和代碼調(diào)整,然后在代碼邏輯不符合最新需求的時候重寫關(guān)鍵模塊(或者在甲方無限的苛責和臨時起意下刪庫走人,開玩笑哈哈)。 

評價指標為何如此必要?有哪些設計之道?

在這里列舉出我對其中一些關(guān)鍵步驟的思考:

  • 討論:毛爺爺告訴我們,從群眾中來,到群眾中去。我們要廣泛的聽取人們內(nèi)心的需求,同時更要將這些需求形式化、量化起來。雖然有點絮叨,但是在我的實際工作中,我會首先認真細致地了解目標人群的需求,并且嘗試在多個矛盾的需求之間做出權(quán)衡和取舍,力求找到一個平衡點。在這個過程中我們可能會使用很多種不同的評價指標作為候選,因為這樣很方便很簡單,成本也很低。但是如此簡單和低成本的做法很可能會限制評價指標的表達能力和學習能力,從而降低評價指標的應用效果。

  • 驗證:有個有趣的現(xiàn)象,就是人們往往更喜歡那些新提出來的評價指標(喜新厭舊的家伙?。?,而且會十分樂意去相信那些少數(shù)的、符合自身認知和直覺的特例(所謂刻板偏見嘛)。比如說,當我們對某個事物進行了調(diào)整,如果結(jié)果的變化跟我們設想的一樣,那我們會特別容易接受這個現(xiàn)象,也會更容易信任所使用的評價指標了。Deng和Shi想要去收集一個很有意思的數(shù)據(jù)集,就是看某個已知好壞的操作會引發(fā)人們評價指標的哪些主觀變化。我覺得這個數(shù)據(jù)集很有意思,它能用來評估人們的刻板偏見所帶來的的主觀影響,當然,前提是我們收集了足夠多的實驗、標記了足夠多的樣本哈。Deng和Shi的數(shù)據(jù)集戳這里

  •  實驗:其實很多研究都沒有得到他們最關(guān)心的評價指標的理想實驗結(jié)果。我曾經(jīng)在Facebook做了一個產(chǎn)品,在那我們幾個月的實驗,但是收效甚微。因為我們的評價指標的噪聲太大了,其中的因果關(guān)系太低了。如果我們無法刻意地、有因果對評價指標產(chǎn)生一些影響和控制,那其實這個評價指標就沒什么實際作用了。這時候你可能就要考慮犧牲一些評價指標的可信性,或者付出一些其他的代價從而換取更高的因果性和精確性了。在我們的實驗驗證過程中,那些不好的評價指標應該被盡量剔除掉,因為他們只會讓我們實驗結(jié)果的“信噪比”降低,讓結(jié)果分析起來更加困難。

  • 優(yōu)化:有了度量之后,我們就能用它作為目標對所研究的事情進行優(yōu)化了。那優(yōu)化操作會帶來什么結(jié)果呢?人們總覺得只要目標選對了,算法所進行的優(yōu)化就一定能帶來積極的反饋。但其實對于很多評價指標來說,它都是有自己的優(yōu)化上限的,或者叫做優(yōu)化的飽和點。從這個飽和點開始,如果我們再進行額外的優(yōu)化的話,就會不經(jīng)意間過度修飾,從而損害一些我們關(guān)心的其他東西。就比如在很多公司中,他們都會面臨一個核心挑戰(zhàn),就是最優(yōu)化評價指標和原則性決定之間的權(quán)衡。為了追求最優(yōu)化的評價結(jié)果,可能就會觸碰公司的原則性底線。這些原則性的問題也許關(guān)乎行業(yè)利益、信譽甚至是法律道德。也像某建國同志為了追求股市和經(jīng)濟的上漲而不顧某國疫情強制開工一樣。我們需要注意,當我們純粹地以某個指標為驅(qū)動來最大化利益或最小化損失的時候,這個評價指標原本想表達的意義就會逐漸被削弱。這個現(xiàn)象在經(jīng)濟學和社會學中通常被稱作古德哈特定律(Goodhart’s Law)。很晦澀?其實就像利用增強學習技術(shù)教會計算機打游戲的場景一樣:計算機通常會尋找到某個歪門邪道的玩法,甚至不惜利用游戲的bug(比如某種騷操作讓內(nèi)存數(shù)值溢出)來讓自己取得更高的分數(shù)或者出奇制勝。顯然我們的目的不是讓它找bug,而是讓他在我們制定的規(guī)則中找到最優(yōu)的操作方法和獲勝路徑。所以,面向評價指標的優(yōu)化也是個燒腦的話題呀。

古德哈特定律感興趣的話戳這里了解一下。  雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

Via https://medium.com/@seanjtaylor/designing-and-evaluating-metrics-5902ad6873bf

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

評價指標為何如此必要?有哪些設計之道?

分享:
相關(guān)文章

知情人士

當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說