0
本文作者: 嘉嘉 | 2022-04-25 19:36 |
云化時代,虛擬機熱遷移(Live migration)是被大家廣泛關(guān)注的的熱點技術(shù),作為云計算平臺核心技術(shù)之一,虛擬機熱遷移也是信服云一直深入鉆研的底層技術(shù)。
那么信服云旗下的超融合產(chǎn)品在熱遷移上實力究竟如何?這場測試揭曉了答案。
虛擬機熱遷移指虛擬機從一臺宿主機遷移到另一臺宿主機,確保業(yè)務(wù)始終運行在可靠且資源充足的物理主機上,并且在遷移過程中盡可能的不中斷業(yè)務(wù)。
隨著越來越多的用戶將核心業(yè)務(wù)部署在云平臺,業(yè)務(wù)應(yīng)用需要更高的SLA保障,可停機的窗口時間的要求越來越高,甚至提出了零停機的能力要求。特別是在如下場景中:
(1)物理主機的維護,比如配件更換、服務(wù)維護。
(2)云平臺升級,需要實現(xiàn)集群內(nèi)物理主機的滾動熱升級。
(3)云平臺對集群內(nèi)進行虛擬機運行位置調(diào)度,獲得更優(yōu)的資源使用效率。
為了檢驗信服云虛擬機熱遷移的真實能力表現(xiàn),信服云在真實環(huán)境中對Oracle業(yè)務(wù)承載下的虛擬機熱遷移進行了測試,并和業(yè)界其他廠家進行了對比。
↑ Oracle 1000用戶場景下的深信服超融合熱遷移
通過以上測試結(jié)果可看出,基于深信服超融合的熱遷移方案可以獲得平滑的業(yè)務(wù)連續(xù)性體驗,遷移得更快、更穩(wěn)。
對于承載了1000并發(fā)用戶的Oracle業(yè)務(wù)虛擬機,深信服超融合承載的Oracle業(yè)務(wù)在遷移過程中性能僅抖動了6s,其中業(yè)務(wù)中斷時間僅1s,上層業(yè)務(wù)可獲得近乎0中斷的平滑遷移體驗。相較于業(yè)界其他超融合產(chǎn)品的測試結(jié)果,信服云的優(yōu)勢明顯。
深信服超融合能實現(xiàn)遠超業(yè)界其他產(chǎn)品的平滑遷移體驗,源自多個底層核心技術(shù)的優(yōu)勢。其中一個關(guān)鍵技術(shù)是CPU節(jié)流算法,其基本原理如下:
在遷移初始階段,源主機通過協(xié)商機制在目的主機上啟動一個同樣的虛擬機,并將其置于靜默狀態(tài)。
然后源主機QEMU記錄虛擬機的所有內(nèi)存數(shù)據(jù)后,通過網(wǎng)絡(luò)傳輸?shù)侥康闹鳈C,但傳輸過程中由于正在運行的業(yè)務(wù)會讀寫內(nèi)存數(shù)據(jù),新產(chǎn)生的內(nèi)存數(shù)據(jù)會在第一輪傳輸完成后重新記錄并按照同樣的方式傳輸?shù)侥康闹鳈C,依次迭代下去,直到最后記錄的內(nèi)存數(shù)據(jù)滿足一個閾值后,源主機會停止運行(即僅1s的業(yè)務(wù)中斷時長)。
QEMU將剩余的內(nèi)存數(shù)據(jù)一次性傳輸?shù)侥康闹鳈C,然后目的主機開始運行,源主機關(guān)機。這個過程中可能產(chǎn)生依次迭代無法收斂的情況,將會降低虛擬機CPU利用率(即節(jié)流),使業(yè)務(wù)降低吞吐量,深信服超融合的優(yōu)化主要是設(shè)計了新的算法,綜合考慮多個指標,兼顧了遷移時間和業(yè)務(wù)受節(jié)流影響的時間,最終能夠降低遷移時間和業(yè)務(wù)受節(jié)流影響的時間。
該項技術(shù)的實現(xiàn),使得原本無法遷移完的場景,現(xiàn)在能夠成功遷移完,并領(lǐng)先業(yè)界水平;同時,熱遷移最后downtime停機階段,ping網(wǎng)絡(luò)中斷時間不超過2秒(最佳測試結(jié)果是0s)。
除了CPU節(jié)流算法,深信服超融合在QEMU熱遷移壓縮算法優(yōu)化、磁盤熱遷移BITMAP數(shù)據(jù)塊粒度調(diào)整、熱點內(nèi)存臟數(shù)據(jù)延遲遷移機制、內(nèi)存熱遷移時間片動態(tài)調(diào)整機制、磁盤熱遷移IO QoS動態(tài)調(diào)整機制等技術(shù)上都有自己的創(chuàng)新設(shè)計,后續(xù)《信服云黑板報》將陸續(xù)為大家?guī)硇欧萍夹g(shù)干貨的分享。
以上就是本期《信服云黑板報》關(guān)于虛擬機熱遷移的分享。關(guān)注“深信服科技”公眾號,獲取更多技術(shù)干貨內(nèi)容哦!
雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。