丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
AI+ 正文
發(fā)私信給老王
發(fā)送

0

獨家丨專訪雅捷信息董事長、NVIDIA全球副總裁,看“非主流”的GPU數(shù)據(jù)庫如何升級銀行數(shù)據(jù)查詢與加工

本文作者: 老王 2017-04-05 22:54
導語:對于銀行、政府等這種速度第一、價格第二的機構(gòu)來講,價格高昂但效果顯著的 GPU 數(shù)據(jù)庫在未來或許會成為一大趨勢。

獨家丨專訪雅捷信息董事長、NVIDIA全球副總裁,看“非主流”的GPU數(shù)據(jù)庫如何升級銀行數(shù)據(jù)查詢與加工

2012 年,正在哈佛大學寫碩士論文的 Todd Mostak 需要查詢大量的論文參考資料,他發(fā)現(xiàn)使用以 CPU 為處理核心的數(shù)據(jù)庫系統(tǒng)做資料查詢速度非常緩慢。而且很多時候,Todd Mostak 在睡覺之前輸入一個查詢命令,第二天醒來發(fā)現(xiàn)系統(tǒng)提示參數(shù)輸入錯誤。

當時 Todd Mostak 選修了由 MIT 數(shù)據(jù)庫研發(fā)組教授的 CSAIL 數(shù)據(jù)庫課程,為了加快論文進度,Todd Mostak 通過自己在 CSAIL 數(shù)據(jù)庫課程中學到的知識開發(fā)了一個簡易的數(shù)據(jù)庫系統(tǒng),該數(shù)據(jù)庫是通過使用廉價的、為游戲玩家使用的 GPU 來建立的,然而這一數(shù)據(jù)庫卻大大加快了 Todd Mostak 的資料查詢速度。

與 Todd Mostak 在哈佛查詢資料時一樣,金融行業(yè)的很多老數(shù)據(jù)庫系統(tǒng)在當今也遇到了查詢速度慢等問題,特別是在高并發(fā)狀態(tài)的查詢環(huán)境下。

這時候,越來越多的金融企業(yè)對數(shù)據(jù)的高速查詢和快速加工有了更高的要求。

銀行的痛點:數(shù)據(jù)加工與查詢

業(yè)內(nèi)人士透露,一個省級銀行的客戶經(jīng)理就高達三萬多人,如果這三萬多人每天同時去做了解客戶信息這件事,任何數(shù)據(jù)庫都難以承載,而過去被廣泛使用的 IBM 小型機根本無法解決。與此同時,成本也是非常大的問題。雖然目前市場上 Teradata 的產(chǎn)品在數(shù)據(jù)查詢和數(shù)據(jù)加工效果方面表現(xiàn)優(yōu)秀,但價格相對較為昂貴。

除此之外,及時掌握風險的能力也非常重要。銀行本身對風控要求極高,過去在風控方面均為事后監(jiān)督,也就是T+1:今天交易完成,第二天再檢查前一天的問題。而當下的交易必須要求做到 T+0,交易的同時也可檢查風險。

這時候如果沒有一個高效的數(shù)據(jù)庫,很難解決上述問題。

在面對這一痛點,雷鋒網(wǎng)采訪了雅捷信息董事長鄭學強、首席數(shù)據(jù)科學家謝軍、NVIDIA 全球副總裁沈威以及 IBM 大中華區(qū)硬件系統(tǒng)部服務(wù)器解決方案副總裁施東峰,詢問相關(guān)問題。

GPU 數(shù)據(jù)庫的優(yōu)勢,與 CPU 數(shù)據(jù)庫的劣勢

雅捷信息是國內(nèi)少有采用上文中提到的哈佛學生 Todd Mostak 在 GPU 上做數(shù)據(jù)庫的公司,其主要產(chǎn)品是性能并行計算數(shù)據(jù)庫產(chǎn)品和銀行信息化系統(tǒng)及智能服務(wù)。

一般來說,GPU 是專為并行計算而設(shè)計的專用協(xié)處理器,通常其內(nèi)部都集成了數(shù)千個高速運算核心。由于 GPU 通常都可以直接搭配高帶寬存儲器協(xié)同工作,因此比使用一般 RAM 的 CPU 運算速度快出一個數(shù)量級。

目前雖然一些企業(yè)和機構(gòu)的數(shù)據(jù)庫已經(jīng)使用了 GPU,但普遍存在一個設(shè)計缺陷:其數(shù)據(jù)庫管理方案都是將數(shù)據(jù)庫存儲在 CPU 一側(cè),當接到用戶的數(shù)據(jù)請求時,將數(shù)據(jù)搬移到 GPU 一側(cè)進行處理,然后再把處理結(jié)果移回至 CPU 進行存儲。也就是說,GPU 并非真正的系統(tǒng)核心。這種機制決定了即使通過 GPU 加快數(shù)據(jù)處理速度,但把處理結(jié)果搬回 CPU 的過程仍然浪費了大量時間。

如果沒有像傳統(tǒng)系統(tǒng)那樣將數(shù)據(jù)全部存儲在 CPU 一側(cè),而是將 GPU 作為真正的核心,利用高速緩存機制將盡量多的數(shù)據(jù)直接存儲在多內(nèi)核協(xié)同工作的 GPU 一側(cè),這樣做的結(jié)果就可避免數(shù)據(jù)搬移過程中耗費的時間,提升了運算效率。

雖然已有相應(yīng)的解決方案去加快 GPU 與 CPU 之間的信息流通,但仍舊存在延時等問題。

目前比較前沿的加速 CPU 與 GPU 信息交方案是 IBM 與 NVIDIA 聯(lián)合研制的 NVlink 信息交換通道。我們知道,GPU 和 CPU 間的數(shù)據(jù)傳輸速度都是一項技術(shù)瓶頸,因為 GPU 的顯存能夠快速而少量的讀寫數(shù)據(jù),而 CPU 使用內(nèi)存讀寫則大量而慢速,因此,CPU 的傳輸帶寬大于 GPU。NVlink 通過調(diào)整相應(yīng)架構(gòu),使得 GPU 和 CPU 間的傳輸速度獲得巨大的提升。

獨家丨專訪雅捷信息董事長、NVIDIA全球副總裁,看“非主流”的GPU數(shù)據(jù)庫如何升級銀行數(shù)據(jù)查詢與加工

其實 IBM 早在幾年前便注意到了這種趨勢,隨后它們與 NVIDIA 合作,去加快新數(shù)據(jù)中心工作負載的處理速度。經(jīng)過四年的研發(fā),POWER8 服務(wù)器聯(lián)合了 NVIDIA 的 Tesla P100 GPU 和 NVlink 互聯(lián)技術(shù),實現(xiàn)了更高的數(shù)據(jù)性能分析和深度學習能力提升。據(jù)測試資料顯示:IBM 和 NVIDIA 技術(shù)如此緊密的結(jié)合使得數(shù)據(jù)流動速度比使用 PCIE 快了 5 倍。

NVlink 除了可實現(xiàn) GPU-CPU 節(jié)點內(nèi)部的高速互聯(lián),同時還能在 GPU-GPU 甚至 CPU-CPU 之間形成高速互聯(lián)。

雅捷信息首席數(shù)據(jù)官謝軍向雷鋒網(wǎng)透露,由于他們服務(wù)的客戶通常是大中型銀行,對計算量要求巨大,因此雅捷信息的新品 DataTurbines 背后采用的是 GPU 集群,這個時候集群中 GPU 與 GPU 之間的高速互聯(lián)就非常關(guān)鍵。當然,雅捷信息的數(shù)據(jù)庫也并非完全在 GPU 中處理,也有一小部分會放在 CPU 中,具體會根據(jù)客戶的成本以及數(shù)據(jù)量等問題來靈活安排。

為了讓 GPU 集群以及 CPU-GPU 之間通信順暢,雅捷信息選擇與 IBM 進行深入合作。IBM 大中華區(qū)硬件系統(tǒng)部服務(wù)器解決方案副總裁施東峰向雷鋒網(wǎng)介紹到,與雅捷信息的合作主要體現(xiàn)在兩方面,在技術(shù)層面 IBM 為雅捷信息的 GPU 數(shù)據(jù)庫提供 GPU-GPU 以及 GPU-CPU 的 NVlink 通道機器 Minsky。在市場方面,IBM 借助雅捷信息的銀行客戶,向銀行推廣包含 GPU 數(shù)據(jù)庫的一體機。

這個一體機本質(zhì)上是 IBM 提供的認知計算平臺,其中 GPU 數(shù)據(jù)庫也歸類在認知計算平臺中。施東峰繼續(xù)講到:IBM 接觸的銀行客戶有兩種,一種是對方只要打包好的、直接能夠使用的產(chǎn)品,他們只需知道這個引擎如何使用即可,另外一種客戶則要是想要自己買機器、做數(shù)據(jù)庫、做算法,自己搭建人工智能引擎。

IBM 主要服務(wù)于前者,以一體機的形態(tài)把相關(guān)的人工智能技術(shù)以及 GPU 數(shù)據(jù)庫進行整合,從而做成企業(yè)級直接使用的、沒有很多指令集、直接連接的產(chǎn)品。

GPU 數(shù)據(jù)庫商業(yè)化應(yīng)用案例

目前從公開資料顯示,已有 GPU 數(shù)據(jù)庫產(chǎn)品在海外市場使用,如 Kinetica、BlazingDB 等。其中最具代表性的就是文章開頭提到的哈佛學生 Todd Mostak,他已成立了公司運營相關(guān)商業(yè)化產(chǎn)品 MapD。在 MapD 系統(tǒng)中,每個 GPU 都有自己的緩沖池,利用高速緩存機制將最常訪問的數(shù)據(jù)直接存儲在 GPU 一側(cè),在數(shù)據(jù)庫需要反復(fù)查詢同一個數(shù)據(jù)點時,MapD 就可以直接從 GPU 一側(cè)的高帶寬存儲器中直接訪問數(shù)據(jù),而不是從 CPU 或硬盤。

通過這種機制,MapD 可以提供相比傳統(tǒng)數(shù)據(jù)庫管理系統(tǒng)快兩到三個數(shù)量級的性能。

獨家丨專訪雅捷信息董事長、NVIDIA全球副總裁,看“非主流”的GPU數(shù)據(jù)庫如何升級銀行數(shù)據(jù)查詢與加工

總體上說,不同行業(yè)的客戶對 MapD 系統(tǒng)的具體需求也不同,但本質(zhì)都是通過其高速的數(shù)據(jù)處理能力協(xié)助他們做出合理的商業(yè)決策。如金融服務(wù)機構(gòu)和對沖基金可以通過該系統(tǒng)來監(jiān)控欺詐行為和做出投資決策;廣告代理商們可以通過該系統(tǒng)來評估客戶們對各種廣告的不同反饋; 社交媒體公司則可以通過該系統(tǒng)追蹤全球用戶的使用情況。

美國電信巨頭 Verizon 也是 MapD 的客戶之一,他們每周都會利用 MapD 系統(tǒng)對 8500 萬用戶更換 SIM 卡的行為展開分析。

此前在使用傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)時,這種分析通常要耗費好幾個小時,因為效率太低,因此只能好幾個月分析一次。近期,Verizon 通過 MapD 系統(tǒng)的每周分析報告發(fā)現(xiàn)了一個隱藏多年的 Bug,這一 Bug 每年導致上百萬次無意義的 SIM 卡更換,不但浪費了服務(wù)資源,而且對用戶體驗影像極大。

GPU 數(shù)據(jù)庫在銀行中的應(yīng)用

相比于 MapD 而言,國內(nèi)的雅捷信息在可視化數(shù)據(jù)庫方面沒有前者出色,覆蓋的業(yè)務(wù)范圍也沒有前者廣,但后者業(yè)務(wù)更加集中在銀行領(lǐng)域。雖然當下銀行逐漸變得愈加開放,不會拒絕新產(chǎn)品和新技術(shù),但有個前提是他們對第三方的產(chǎn)品要求極其嚴格,銀行如果想要采購方案會經(jīng)過以下幾個流程:溝通、PUC 測試,最后招投標,然后讓供應(yīng)商的產(chǎn)品進入它的銀行體系。

銀行的信息安全是最高等級的,如果沒有一把手簽字,信息完全拿不出去。一般情況下,產(chǎn)品先到銀行進行測試,然后供應(yīng)商需要經(jīng)過五道審批手續(xù)才能把系統(tǒng)送進去,入庫上架后銀行方把數(shù)據(jù)脫敏以后才讓供應(yīng)商使用。

因此與銀行合作,相比于絕大多數(shù)行業(yè)來說,難度大不少。

雅捷信息董事長鄭學強向雷鋒網(wǎng)透露:銀行的夜間加工只有八個小時,超過八個小時就面臨第二天無法開門的情況,如果第二天開不了門,銀監(jiān)會對其的處罰非常嚴重。

鄭學強跟 IBM 的相關(guān)負責人交流時產(chǎn)生了一個觀點,在 GPU 上并不能放到上千 T,甚至 PB 級的數(shù)據(jù)。在 GPU 上真正需要解決的是客戶所要用的數(shù)據(jù)和熱點數(shù)據(jù),而非在千T、PB級的數(shù)據(jù)里進行數(shù)據(jù)查詢。方案商應(yīng)該去形成一個個的小數(shù)據(jù)倉庫(Data mart),這時分布式的 GPU 數(shù)據(jù)庫應(yīng)該為熱點數(shù)據(jù)服務(wù),而不簡單地提供儲存功能。

MemSQL 的首席技術(shù)官兼聯(lián)合創(chuàng)始人尼基塔·沙姆古諾夫(Nikita Shamgunov)也曾指出 GPU 為某些工作負載提供了優(yōu)勢,它可以分解成許多小的操作單位,每一個小小的操作單位可以同時在大批核心上加以執(zhí)行。

關(guān)于產(chǎn)品的適用性問題上,鄭學強舉了一個省級農(nóng)商行的商業(yè)化案例。省級農(nóng)商行的規(guī)模相當于一個股份制銀行,存貸款規(guī)模過萬億,每天的日交易比數(shù)可以達到兩千萬筆。在一個 6000 萬客戶的銀行,以往 2 小時的跑批任務(wù),如今采用 GPU 數(shù)據(jù)庫產(chǎn)品可在 1 分鐘內(nèi)完成,原先 5 分鐘的查詢,現(xiàn)在不到一秒。在幾萬名客戶經(jīng)理天天使用的場景下,一千個并發(fā)可以達到毫秒級的響應(yīng),絕大部分的復(fù)雜查詢實測效果平均響應(yīng)時間 200 毫秒,其中 DB2 提速 400 倍左右,Hadoop 提升 200 倍,在 Hadoop 上對比的節(jié)點是 46 個節(jié)點。

除此之外,雅捷在與招商銀行、中興銀行合作期間解決了信用卡業(yè)務(wù)的一些問題,如雙十一期間用戶用信用卡在網(wǎng)購上同時支付,這對系統(tǒng)的壓力非常大,所以說它需要有一個高速的平臺,來給它做分解。

GPU 之后,F(xiàn)PGA 數(shù)據(jù)庫是否會成為未來?

通過案例了解到,目前已有不少公司把數(shù)據(jù)庫從 CPU 轉(zhuǎn)換到 GPU 中,那么未來是否會從 GPU 轉(zhuǎn)向 FPGA 中?雷鋒網(wǎng)提出這樣一個疑問,既然銀行要求高速度、低延遲,這時候速度快、低延遲、低功耗的 FPGA 似乎比 GPU 更加匹配,而且 FPGA 正逐漸開始被各大公司廣泛使用。

針對這一問題,雅捷信息董事長鄭學強說到雖然 FPGA 低能耗、體積小、效率高的特性使得它確實有一定的優(yōu)勢,但 FPGA 的一大局限性就在于內(nèi)存較小,因為數(shù)據(jù)需要一定的物理空間進行存儲。另外,雅捷信息也一直準備嘗試 FPGA,但最終沒做的原因是現(xiàn)在高性能計算芯片中,GPU 代表新一代主流的技術(shù),拋棄主流技術(shù)和產(chǎn)品去嘗試另外一種技術(shù),相對的試錯成本會比較高。

隨后,雅捷信息首席數(shù)據(jù)科學家謝軍補充道:并行計算有很多種架構(gòu),如 GPU、FPGA 等等,一個公司選擇某個方向有它的深思熟慮。雅捷信息之所以選 NVIDIA 的 GPU,非常核心的價值在于 GPU 擁有運算平臺 CUDA。開發(fā)一個方案僅僅靠硬件是不夠的,要有好的架構(gòu)才能做到。正如很多公司當年選 Windows 系統(tǒng)一樣,如果沒有易用的、通用的操作系統(tǒng),所進展的每一步都很難。所以 NVIDIA 的價值并不僅僅在于它的晶體管集成技術(shù),還有 CUDA 這樣的運算系統(tǒng)。

針對 GPU 和 FPGA 這一問題,雷鋒網(wǎng)也采訪了 NVIDIA 全球副總裁沈威,沈威說道:以谷歌為例,谷歌的 Alphago 最開始用 TPU 部署,當時的 TPU 也就是 FPGA,而現(xiàn)在谷歌的 TPU 用的是 ASIC。這里可以看出谷歌當時采用 FPGA 更多是為了嘗試,當他確定要增加數(shù)量時則把 TPU 的核心變成了 ASIC,這背后就能說明一些問題。06 年很多人開始考慮 GPU 游戲的計算能力,但是人們沒辦法使用它,于是 NVIDIA 開發(fā)了 CUDA,從而解放了 GPU 的運算能力。在 CUDA 的架構(gòu)上可以用比較常見的 Java 或 C++ 進行編程,而在 FPGA 上則是用 Verilog 或 VHDL語言,所以 GPU 在普及性上會有非常大的優(yōu)勢。與此同時,NVIDIA 有共通的平臺使得其于通用的服務(wù)器或者 CPU 服務(wù)器連接在一起,而 NVIDIA 當下的一大任務(wù)是讓 CUDA 的架構(gòu)不斷去與傳統(tǒng)行業(yè)的 IT 業(yè)務(wù)接軌。

總結(jié)

關(guān)于使用 GPU 相比 CPU 的數(shù)據(jù)庫總體成本/效益仍的爭論一直存在,由于大多數(shù)軟件無需用到 GPU 所達到那種并行化程度,也無法用 GPU 有限的指令集來處理,使得 GPU 在很多方面不適合工作負載。而在跨集群根據(jù)不同的鍵對數(shù)據(jù)重新分區(qū),這些操作在 CPU 上卻來得非常高效。

與此同時,英特爾等公司在以低成本封裝 CPU 能力方面非常高效,相比 GPU 而言,CPU 往往成本更低。

但對于銀行、政府等這種速度第一、價格第二的機構(gòu)來講,價格高昂但效果顯著的 GPU 數(shù)據(jù)庫在未來或許會成為一大趨勢。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

微信 wangyafeng123456
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說