丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給汪思穎
發(fā)送

0

ACM 杰出科學家得主達摩院李飛飛教授:數(shù)據(jù)庫研究道阻且長,需持之以恒

本文作者: 汪思穎 2018-11-09 11:22
導語:11 月 8 日,ACM 公布 2018 年度杰出科學家名單,全球數(shù)據(jù)庫領域領軍人物、達摩院數(shù)據(jù)庫首席科學家、阿里巴巴數(shù)據(jù)庫事業(yè)部負責人李飛飛教授入選。
活動
企業(yè):阿里巴巴
操作:
事項:人事獲獎&獨家專訪

雷鋒網 AI 科技評論消息,11 月 8 日,美國計算機協(xié)會(ACM)公布 2018 年度杰出科學家名單,全球數(shù)據(jù)庫領域領軍人物、達摩院數(shù)據(jù)庫首席科學家、阿里巴巴數(shù)據(jù)庫事業(yè)部負責人李飛飛教授入選。

ACM 是國際上歷史最悠久、規(guī)模最大、最權威的計算機專業(yè)學會,著名的圖靈獎即由該組織評定頒布。ACM 杰出科學家必須是對計算機領域做出重大成就和影響的研究人員。

ACM 杰出科學家得主達摩院李飛飛教授:數(shù)據(jù)庫研究道阻且長,需持之以恒

李飛飛,猶他大學計算機系終身正教授。曾獲 ACM、IEEE、Visa、Google、HP等多個獎項,獲 IEEE ICDE 2014 10 年最有影響力論文獎、ACM SIGMOD 2016 最佳論文獎、ACM SIGMOD 2015 最佳系統(tǒng)演示獎、IEEE ICDE 2004 最佳論文獎、美國 NSF Career Award、中國基金委海外重點研發(fā)獎等。擔任多個國際一流學術期刊和學術會議的編委、主席。

李飛飛教授于今年五月正式加盟阿里巴巴達摩院,帶領團隊投入到具有自主知識產權的數(shù)據(jù)庫系統(tǒng)研究當中,包括新一代分布式數(shù)據(jù)庫、非結構化數(shù)據(jù)管理、數(shù)據(jù)安全、智能化數(shù)據(jù)庫等關鍵技術,并致力于將中國數(shù)據(jù)庫技術水平提升至國際前沿,打破寡頭企業(yè)對數(shù)據(jù)庫核心技術的壟斷。

目前,李飛飛教授帶領的阿里巴巴數(shù)據(jù)庫事業(yè)部所研發(fā)的新一代分布式數(shù)據(jù)庫系統(tǒng),支撐了阿里巴巴集團的復雜業(yè)務、海量數(shù)據(jù)和雙11交易洪峰的挑戰(zhàn),已經被應用于多個城市的智能城市交通網絡管理,實現(xiàn)城市內數(shù)千萬智能終端數(shù)據(jù)的瞬間調取與分析。此外,中國氣象的國家氣象大數(shù)據(jù)分析平臺也應用其技術,實現(xiàn)了毫秒級的氣象數(shù)據(jù)查詢與分析,該數(shù)據(jù)庫存儲了1957年建站以來,6萬多氣象站的分鐘級數(shù)據(jù)

雷鋒網 AI 科技評論借著這一契機,第一時間對他進行專訪。采訪中,李飛飛教授談到加入達摩院是一個迎接大規(guī)模挑戰(zhàn)的機會,也是形成工業(yè)和科研聯(lián)動的機會,他也對雷鋒網介紹了阿里自研并計劃近期商業(yè)化的新一代分布式數(shù)據(jù)庫系統(tǒng),更講解了數(shù)據(jù)庫系統(tǒng)的問題如何理解、有何展望。以下為訪談實錄,有刪減。

研究之路

這次獲得 ACM 杰出科學家榮譽,有什么獲獎感言與大家分享?

(笑)怎么講呢?我比較喜歡腳踏實地搞技術,一步一步。獲得 ACM 杰出科學家榮譽稱號,當然還是非常高興的,這是對我過去成績的肯定,也是對我這么多年來做數(shù)據(jù)庫系統(tǒng)的肯定。

從公司層面上說,加入阿里之后獲得這個獎項可以幫助阿里、包括達摩院打造更好的技術品牌形象,往大的方向說,可以幫中國的數(shù)據(jù)庫領域去擴大一些宣傳,爭取更多的聲音,我覺得非常高興。

您是什么時候開始對數(shù)據(jù)庫研究產生興趣?

讀本科的時候。當時我上了一門課數(shù)據(jù)庫課程,做了一個小項目,后面就用到了數(shù)據(jù)庫系統(tǒng),用了以后發(fā)現(xiàn)這個系統(tǒng)挺有意思,因為是否建 index,或者數(shù)據(jù)怎么分片對性能會產生很大的影響。當時我把數(shù)據(jù)庫系統(tǒng)當做黑盒子來調參,發(fā)現(xiàn)調節(jié)過程中,性能等各方面會產生很大的變化。我對黑盒子是怎么造就的產生了很大的興趣,所以就決定去打開這個系統(tǒng)。打開以后,我發(fā)現(xiàn)這里面非常復雜,涉及到事務處理、查詢優(yōu)化器、存儲引擎,還有各種不同的數(shù)據(jù),另外還有在高可用、分布式上的挑戰(zhàn),越深入研究,越發(fā)現(xiàn)這個領域非常深。

在這些年的研究中,有什么心得體會可以與大家分享?

我在這些年的求學、教學經歷中,以及與 Google、Facebook、Visa等國內外企業(yè)的合作中,最深刻的一點體會就是做技術一定要腳踏實地、實事求是,不要為一些短期目標去放棄自己長期的堅持和追求。

核心技術突破非常具有挑戰(zhàn)性,必須持之以恒。這有時候很難,因為在技術上會涉及到一些名和利,也要去追求一些短、平、快的東西,這些都能理解,但是一定要有長期的堅持,尤其是我們做系統(tǒng)研究的,更是要有一個長久的預定目標,然后一步一步去實現(xiàn)。

科研并不是說能夠在很短的時間內就產生比較大的突破,它是在很多人努力的情況下,慢慢去摸索、去積累,到一定程度以后,就會產生突破。

加入阿里

這次達摩院引入了一大批水平非常高的專家和學者,您當時加入達摩院的契機是什么?

主要有以下幾點:

第一,我非常認可阿里的技術品牌形象,它對技術的投入非常認真,而且它的目標就是要做世界一流的技術。可能在大多數(shù)百姓眼中,阿里是一個商業(yè)帝國,在商業(yè)上非常成功,但實際上,我覺得在過去幾年阿里的轉型中,它所承載技術的厚度和深度,已經發(fā)展得非常好了,而且慢慢也成為一家以技術為第一驅動力的公司。

第二,阿里的業(yè)務非常復雜,這會帶來一個好處,我們能夠快速驗證和落地現(xiàn)有的技術,而不是說空中樓閣,沒有應用、沒有數(shù)據(jù)。現(xiàn)在大數(shù)據(jù)、人工智能還有系統(tǒng)方向的發(fā)展越來越復雜,都是高并發(fā)、分布式這種大規(guī)模的體系,我覺得只有少數(shù)的一些企業(yè),比如阿里,或 Google 才有這種規(guī)模去探索一些技術上的挑戰(zhàn)。這也是我加入阿里的另外一個訴求,能夠有這種真正的大規(guī)模的系統(tǒng)的場景、數(shù)據(jù)以及業(yè)務來驅動技術發(fā)展。

最后一點是達摩院本身的品牌,這里匯聚了一幫非常高水平的研究人員,包括達摩院院長及阿里巴巴集團CTO張建鋒,他在阿里技術體系下一步步成長起來,帶領達摩院吸引了一大批世界一流的科學家。他的作風非常接地氣,也非常能成事,具有很強的感染力和影響力。

您是什么時候開始考慮進入工業(yè)界發(fā)展的?

回到我前面說的,我們做系統(tǒng),尤其是數(shù)據(jù)庫系統(tǒng),發(fā)展到今天,學術界能夠做到的規(guī)模和工業(yè)界的規(guī)模存在一定差異。

工業(yè)界管理的系統(tǒng)節(jié)點都是以千來計算,甚至上萬臺,在學術界,因為受限于資源、應用還有數(shù)據(jù),能搭上百個節(jié)點就已經很不錯了。

工業(yè)界有一手的數(shù)據(jù)和海量的應用,像阿里雙 11 這種場景,在學術界你是沒辦法去模擬這種規(guī)模和挑戰(zhàn)的。

這時候工業(yè)界對我來說就變得非常有吸引力。之前與谷歌、微軟合作加強了我對工業(yè)界的了解,阿里接觸我以后,我也挺認可他們做的事情。從業(yè)務上來說,從技術的角度來看,阿里的規(guī)模和挑戰(zhàn)很大,這點非常吸引人。

您于今年 5 月加入達摩院,您當時在工作上的規(guī)劃以及研究上的想法是什么?

阿里給了我一個很好的平臺,達摩院實驗室可以支撐我做一些科研上的探索,另外我下面還有數(shù)據(jù)庫和存儲兩個事業(yè)部,這是兩個工程團隊。

一方面,我可以有實驗室來做一些科研上的探索,同時又有工程團隊來給我空間和這個舞臺,讓我去帶領大家去真正去做系統(tǒng)的研發(fā),還有運維等工作。兩邊可以很好地互動起來,可以將科研上的東西很快地去落地到真正的系統(tǒng)里,系統(tǒng)面臨的挑戰(zhàn)又可以很快去反饋,來推導我們科研到底應該去做什么樣的問題。這兩方面形成了一個很好的聯(lián)動。

這是我加入阿里以后,體會非常深的一點。

這五個月的工作和您當初設想的大體一致?

基本上一致,既有科研上的前沿挑戰(zhàn),但同時又不是那種空中樓閣。

我現(xiàn)在 1/3 的時間在看科研上最新的技術挑戰(zhàn),1/3 的時間和工程團隊做一些一線的研發(fā)工作,這完全是工程上系統(tǒng)化的東西,還有 1/3 的時間去做一些運維相關的工作。

阿里和其他一些公司不太一樣,它的技術產品既通過阿里云去輸出到第三方,服務國內的大中小企業(yè),包括國際上的一些企業(yè),同時又支撐了自己的內部業(yè)務,比如淘寶、天貓、優(yōu)酷等,它的業(yè)務線非常復雜,所以我們做的產品,很快就要在公司內部落地,落地以后在運行的過程中又有運維的壓力。所以實際上這是一整套循環(huán)。

新的挑戰(zhàn)

與之前在大學的教學相比,阿里的工作帶來的挑戰(zhàn)集中在哪些方面?

第一,阿里這種技術團隊,既有研發(fā)任務,又有運維任務。以前在學校的研究不會涉及到運維,但在阿里就不一樣,阿里是為無數(shù)個企業(yè)用戶提供支持和服務的,很多業(yè)務方在用我們的技術產品,出了問題之后自然而然要你去幫他解決。

安全生產對我們來說是非常大的一個挑戰(zhàn),一旦我們的數(shù)據(jù)庫系統(tǒng)出現(xiàn)問題,對線上的淘寶、天貓,線下的盒馬鮮生都會產生很大影響。

第二,我來阿里之后,下屬的實驗室團隊和工程團隊有四百人左右的規(guī)模,對于我這樣一個技術背景的人來說,在管理上也會有一些挑戰(zhàn)。

第三,阿里的文化講究簡單真誠,如何快速融入到這種文化里,這對每個人都是一種挑戰(zhàn)。

您所在團隊研發(fā)的新一代分布式的數(shù)據(jù)庫系統(tǒng)支撐著阿里的很多場景,您能更多地介紹一下這個系統(tǒng)嗎?

這個系統(tǒng)在我們內部的代號叫 X-DB,它是阿里巴巴從大概 16 年開始做的一個分布式數(shù)據(jù)系統(tǒng)。為什么要做分布式?這源于阿里的業(yè)務場景,像雙 11 這種高并發(fā)場景下,對數(shù)據(jù)庫后臺帶來的沖擊是非常高的,傳統(tǒng)的單機根本解決不了這個問題;而且數(shù)據(jù)量非常大,數(shù)據(jù)規(guī)模數(shù)據(jù)形態(tài)非常復雜,所以必須用分布式的方法把負荷分布到多個集群,多個節(jié)點上面去。

從 16 年開始,阿里自研 X-DB 分布式系統(tǒng),發(fā)展到今天,它已經能夠支撐阿里巴巴幾乎所有的業(yè)務,像淘寶、天貓,還有餓了么、優(yōu)酷。

在您進入阿里之后,針對于這一系統(tǒng),您做了哪些針對性的改進?

我主要做了如下幾點調整:

第一,X-DB 前期的發(fā)展主要是以支撐阿里巴巴內部的業(yè)務為標準,所以會定制化、與業(yè)務相關。我們后續(xù)的目標是要把它打造成標準化、產品化的通用數(shù)據(jù)庫系統(tǒng)。

第二,在高并發(fā)和高可用的情況下,我們希望做得更優(yōu)化,這得有一些核心的技術手段去保障。

第三,在智能化運維方面,傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)調優(yōu),可能要大量依賴人力資源和經驗,我們現(xiàn)在希望能夠用機器學習的方法去根據(jù)系統(tǒng)的負載,自動地學出負載的模式和特征,然后進行系統(tǒng)參數(shù)調優(yōu)。

另外,我們現(xiàn)在開始布局數(shù)據(jù)庫安全,希望我們的數(shù)據(jù)庫能夠提供數(shù)據(jù)安全特征,比如把數(shù)據(jù)加密以后再存到數(shù)據(jù)庫中,然后通過不解密的方法就能夠對數(shù)據(jù)庫進行查詢和操作。

現(xiàn)在計算機視覺、自然語言處理等人工智能相關領域特別火,這樣會對數(shù)據(jù)庫方面的人才儲備產生影響嗎?

我以前在高校做教授,包括現(xiàn)在我在上海交大致遠學院的 ACM 班當講席教授,那里的學生都是非常優(yōu)秀的計算機本科學生,我看到這幾年有很多學生都去就讀機器學習相關方向,比如計算機視覺、自然語言處理、語音識別。

我覺得有幾方面的原因。

第一,與人工智能結合的方向都是非常偏應用化的場景,比如圖片識別、自然語言理解、語音識別,老百姓也能看得見,摸得著,能馬上能夠理解這些成果,但是計算機領域的三大基礎軟件——編譯器系統(tǒng)、操作系統(tǒng)、數(shù)據(jù)庫系統(tǒng),對大多數(shù)人來講,是系統(tǒng)底層,是看不見摸不著的。即使你做了很多,大家也很難理解這到底有什么應用。這樣不管是學生還是專業(yè)人士,都很難吸引來這個領域發(fā)展。

第二,人工智能、機器學習確實是一個很重要的方向,而且現(xiàn)在確實有一些最根本的基礎性的問題還沒有被解決。從科研的角度來講,這些研究也確實非常吸引人。

很多時候大家會覺得系統(tǒng)就是個工程問題,實際上做深了以后,它也會有許多科研上的挑戰(zhàn),很吸引人。

從這兩方面來講,人工智能現(xiàn)在非?;鹨彩怯衅湓虻模瑢ο到y(tǒng)方面的人才確實產生了一些沖擊。我也希望能夠通過阿里的平臺,或者通過我們與高校的合作,大家一起去擴大底層系統(tǒng)的宣傳力和品牌形象,吸引到更多的人來做這些底層的系統(tǒng)。上層是應用,底層系統(tǒng)是基礎。

目前您的團隊和哪些高校有著合作關系?

我們和高校有挺多合作,國內像比如清華、北大、浙大、上海交大、華東師范大學、香港科技大學、中科院等。國外有新加坡國立大學、新加坡南洋理工大學,我們目前都有科研項目在合作。

后續(xù)我們也希望通過阿里的平臺能夠更寬、更深地去和國內的高校合作。

我覺得和高校合作有兩個意義,第一,這有一些立竿見影的效果,利用高校的智力資源幫我們去解決一些業(yè)務上、技術上的核心挑戰(zhàn)。第二,更重要的是長期的投資過程,阿里作為這么大的一個經濟體,它必須擔當起對應的社會責任感,要考慮社會效益,與高校的合作是長期的,值得去投入。培養(yǎng)出來的這些學生,他們畢業(yè)后也是全社會非常豐富的人力資源儲備。

您前面提到系統(tǒng)做深之后,也會碰到一些就比較難的挑戰(zhàn),能具體談談嗎?

系統(tǒng)是一個大規(guī)模、工程化的東西,里面的科研點非常多,但是有時候會有一種「老虎吃天,無從下爪」那種感覺?,F(xiàn)在很火的機器學習的很多應用,計算機視覺中的問題,可能已經抽象得非常精確了。我們的大腦思維方式很容易去理解這種抽象化的問題,可以快速簡單地描述清楚。

但系統(tǒng)不是這樣,數(shù)據(jù)庫系統(tǒng)到底有什么挑戰(zhàn)?數(shù)據(jù)庫系統(tǒng)到底是什么?很難用一兩句話講清楚。因為它是一個復雜的工程,我覺得這是最大的一個挑戰(zhàn)。

換種方式來講,系統(tǒng)的上手過程非常漫長,不是簡單地掌握了一兩個核心的點或者工具,你就可以去突破,這牽扯到方方面面。

具體到工程的時候,比如你遇到一個 bug,或者去調優(yōu)、調參時,很多時候都是牽一發(fā)而動全身,系統(tǒng)的模塊和模塊之間有很強的關聯(lián)性。調了這個點之后,可能這個點被優(yōu)化了,但其他的一個點就會被弱化,從整個系統(tǒng)的角度來講,很難講這到底是好還是壞。

這和應用相關的一些領域很不一樣,系統(tǒng)很難被定性優(yōu)劣。舉個例子,比如修高速公路,可能有人會想高速公路肯定是車道越多越好,五車道肯定比三車道要好,但實際上你再仔細想想,放在一個更大的系統(tǒng)里面看,可真不是這樣,你修的車道可能會占用旁邊的地,比如商業(yè)用地、工業(yè)用地或者農業(yè)用地,那這又會帶來連鎖反應。系統(tǒng)的挑戰(zhàn)就在于此,它不是一個孤立的問題,它是一個連鎖問題,一環(huán)扣一環(huán)。這是我這么多年以來,對系統(tǒng)的研究最深的體會。

數(shù)據(jù)庫研究所牽涉到的跨領域知識點有哪些?

舉個例子,說比如說我們的平臺上面跑了幾千或者幾萬個數(shù)據(jù)庫實例。那么傳統(tǒng)的方法就是 DBA(數(shù)據(jù)庫管理員)一個一個去看,這個實例我應該怎么調,它的工作負載是怎么變化的。這顯然是不具備可拓展性的。

那在固定資源情況下,即總的機器數(shù)、總的 CPU 核心數(shù)目、總的內存容量一定的情況下,我們工作負載到了每個機器上,那么每個實例的數(shù)據(jù)庫負載是隨著時間有變化的,我們要怎么樣在有限的資源內去做更好的調優(yōu)。比如說這個數(shù)據(jù)庫的實例現(xiàn)在是它的峰值,那我們就應該把更多的 CPU 核心或更多的內存分配到這個數(shù)據(jù)庫的實例上去。但這個實例不可能永遠控制這么多資源,那么當它的負載結束以后,我們能不能夠快速的判斷出來,而且自動的把剛才分配給他的資源快速地分配到其他的數(shù)據(jù)庫實例上去。這就是一個自動調優(yōu)的一個過程,牽扯到運籌學統(tǒng)計還有機器學習的方法。

數(shù)據(jù)庫系統(tǒng)再舉個例子,又跟硬件非常有關系。我原來在美國讀博士的時候,一開始接觸系統(tǒng)就學到一句話,當時就把它硬背下來,現(xiàn)在我越來越深刻地理解了。A system is about efficient and safe use of limited resources,拿中文來講,"系統(tǒng)就是高效安全地使用有限的資源"。

聽起來好像平淡無奇的一句話,但實際上這里面的水非常深。

首先我們的硬件資源有限,如果你有無限的 CPU ,有無限的核,有無限的內存,那系統(tǒng)隨便你怎么處理,可能都還不錯,性能也挺好的。

但問題是我們是有限的資源,也有資金上的限制。在有限資源下做你的事情,第一要高效,第二要可靠。這就牽扯到對硬件的理解,比如說 SSD 是怎么運作的,加密的數(shù)據(jù)要怎么利用安全硬件,怎么樣去做 CPU、FPGA 的加速。需要對硬件有很深刻的理解,才能夠寫出來高效的軟件系統(tǒng)。

所以現(xiàn)在另外一個點就是軟硬件一體化,我舉了以上兩個例子來回答你剛才的問題,數(shù)據(jù)庫系統(tǒng)它牽涉的面還是比較多的。

(完)

雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。

ACM 杰出科學家得主達摩院李飛飛教授:數(shù)據(jù)庫研究道阻且長,需持之以恒

分享:
相關文章

編輯

關注AI學術,例如論文
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說