0
本文作者: AI研習社-譯站 | 2019-01-02 10:37 |
本文為 AI 研習社編譯的技術博客,原標題 :
How To Ask The Right Questions As A Data Scientist
作者 | Admond Lee
翻譯 | hhvfg
校對 | 醬番梨 整理 | 菠蘿妹
原文鏈接:
https://towardsdatascience.com/how-to-ask-the-right-questions-as-a-data-scientist-913621907411
數(shù)據(jù)科學家如何提出好問題
在我們討論作為一名數(shù)據(jù)科學家,如何通過提出正確的問題去定義一個問題的陳述之前,我們首先需要嘗試著去理解為什么提出正確的問題是如此的重要。。。
長話短說,當我開始我的首次數(shù)據(jù)科學家的交流的時候,我對自己的項目非常的興奮,急迫地想去實踐起來,而對于總體的布局沒有一個清晰的認識。
我雖然已經(jīng)理解那些我嘗試解決的問題,但是并沒有具體的探究細節(jié)去定義目標和問題。更糟糕的是,讓我去分析和預估的數(shù)據(jù)集我沒有任何的預先的思考。直到完成了數(shù)據(jù)清洗和分析過后的兩周我才意識到我對數(shù)據(jù)做了一個錯誤的假設--這全都是因為我事先沒能對問題和數(shù)據(jù)進行充分的理解。
這是我的小故事。
我相信提出正確的問題以及定義問題的陳述是眾多數(shù)據(jù)科學領域的初學者常常遇到的問題(當然包括我自己)。
你看,提出問題很簡單,每個人都能輕而易舉地完成。但是,提出正確的問題是很需要技巧的,而定義一個問題的描述也是如此,我希望下面的內(nèi)容會幫助你在處理這些挑戰(zhàn)的時候,在方法上上或多或少的提供些幫助。
讓我們開始吧。
不管你承認與否,在數(shù)據(jù)科學領域,定義一個問題的陳述是十分重要的一步。
一個好的問題陳述往往事半功倍。
--- Charles Kettering
接下來,我們將通過四個步驟去定義一個問題的陳述
所有的問題表述都應該嚙合一個方向,就是在闡述一個問題陳述之前能夠讓人有一個很好的理解。
1.理解需要去處理和解決的問題
我們需要達到怎樣的目標?你老板當前面臨的最棘手的問題是什么?
通常情況下,kaggle競賽平臺上面的問題設置闡述的都很好,我們被提供需要處理的數(shù)據(jù)集而無需去擔心怎樣的問題闡述對別人重要或者如何獲得數(shù)據(jù)等這樣的問題。
甜點
現(xiàn)在的情況是,在實際的工作環(huán)境中,問題并沒有被很好的闡述,他們看起來模棱兩可,他們都很模糊。
并且,在大多數(shù)的時候,老板通常只是給我們一個問題:我有這么個“問題”,你能幫我解決他么?然后給個期限。
簡短卻讓人感覺并不那么‘甜’
幫助他們將問題轉換為一個數(shù)據(jù)科學問題,站在他們的立場,采用他們的角度,這 是我們的任務。
換句話說,我們需要具備同理心。
提出那些能讓你對于問題獲得更好更深理解的問題,因為老板對于問題有自己的看法。我們的任務就是從他們那了解到這種看法,然后結合我們數(shù)據(jù)技術方面的知識去想出一個解決方法,從而帶來商業(yè)價值。
2.具體問題具體分析
一旦我們將問題框架化成一個數(shù)據(jù)科學領域的問題,那接下來要做的事情就是根據(jù)具體的問題評估情況
這就意味著我們需要謹慎的分析當前情況下的風險,成本,收益,連續(xù)性,規(guī)律性,資源以及需求。
為了進一步的闡述,通??梢詺w納為一下這幾點:
問題的需求是什么?
假設和限制分別是什么?
可獲得的資源都有哪些?這個涉及到人員和資金,例如計算機系統(tǒng)(可獲得的GPU,CPU),還有儀器等等。。
3.知道項目的潛在風險和收益
這一步是可選的,取決于項目的大小和規(guī)模。
一些項目可能僅僅還處在開發(fā)階段,因此,在未來如果投入生產(chǎn),潛在的風險可能遠遠低于巨大的收益。
項目的主要的成本都有哪些
潛在的收益有哪些?
在項目進行過程中的風險會有哪些?
會出現(xiàn)哪些突發(fā)的風險?
回答這些問題能夠幫助你對于當前的情況有一個更好的理解,以及更好的理解項目所涉及的內(nèi)容,而對項目深刻的理解能夠幫助我們比先前更好的評估問題陳述的正確性。
4.定義一個成功的標準(或指標)去評估項目
這是非常重要的。你不想做一個帶有需要解決問題闡述的雄心勃勃的項目,僅僅是因為你意識到?jīng)]有任何的指標去判斷和預估項目最終的成功。
這就歸結為一個簡單的問題:在項目最終結束的時候,你希望達成哪些指標?
這些指標應該能夠可測量,不是抽象不可量化的。這樣的一些指標可能不會立刻的獲得,因此我們需要對數(shù)據(jù)進行采集和處理
和你老板討論應該采用哪些指標是很有必要的,而且當詢問這些正確問題的時候應該在項目進展的早期。
定義成功的標準是如此的重要,因為這將幫助你在整個周期中去很好評估這個項目。
最后,我們在最終的目標就是更好的闡述問題以及更好的定義問題的陳述,去解決使用數(shù)據(jù)科學方法的問題,從而產(chǎn)生商業(yè)化的想法并驅動可行的計劃。
感謝您的閱讀。我希望這篇文章能夠讓你真正的認識到提出正確的問題以及如何闡明問題的描述是何等的重要。
總之,如果你有任何的問題或者想法請在下方給我留言,或者你可以通過LinkedIn.聯(lián)系我,本篇到此為止,下次再見吧。
想要繼續(xù)查看該篇文章相關鏈接和參考文獻?
長按鏈接點擊打開或點擊底部【數(shù)據(jù)科學家如何提出好問題】:
https://ai.yanxishe.com/page/TextTranslation/1347
AI研習社每日更新精彩內(nèi)容,觀看更多精彩內(nèi)容:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
自然語言處理中的詞表征(第二部分)
等你來譯:
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。