丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給王剛
發(fā)送

0

“數(shù)據(jù)丟失事件”續(xù)集:騰訊云還原“人為失誤”全過程

本文作者: 王剛 2018-08-08 00:48
導(dǎo)語(yǔ):和解金額未透露,未公布責(zé)任員工名單

雷鋒網(wǎng)消息,8月7日晚,騰訊云官方微信公眾號(hào)發(fā)布了《關(guān)于客戶“前沿?cái)?shù)控”數(shù)據(jù)完整性受損的技術(shù)復(fù)盤》,對(duì)“數(shù)據(jù)丟失事件”全過程進(jìn)行了還原。

“數(shù)據(jù)丟失事件”指的是北京清博數(shù)控科技有限公司所屬“前沿?cái)?shù)控”平臺(tái)一塊操作系統(tǒng)云盤發(fā)生故障,導(dǎo)致文件系統(tǒng)元數(shù)據(jù)損壞這一事件,而該公司購(gòu)買的正是騰訊云的服務(wù)。

據(jù)了解,這是騰訊云繼8月6日上午《關(guān)于用戶“前沿?cái)?shù)控”數(shù)據(jù)完整性受損及騰訊云補(bǔ)償措施的說明》之后的第二次官方回應(yīng)。此前聲明見文章:騰訊云回應(yīng)“數(shù)據(jù)丟失事件”

據(jù)雷鋒網(wǎng)觀察,此次騰訊云發(fā)布的“復(fù)盤通知”主要有4點(diǎn)信息:

1、還原了故障過程

2、解釋了故障原因

3、公布了改進(jìn)措施

4、提出了客戶建議

騰訊云指出,“前沿?cái)?shù)控”平臺(tái)數(shù)據(jù)丟失除了物理因素外,人為失誤是重要原因,騰訊云為此做了深刻檢討:

復(fù)盤發(fā)現(xiàn),該故障緣起于因磁盤靜默錯(cuò)誤導(dǎo)致的單副本數(shù)據(jù)錯(cuò)誤,再加上數(shù)據(jù)遷移過程中的兩次不規(guī)范的操作,導(dǎo)致云盤的三副本安全機(jī)制失效,并最終導(dǎo)致客戶數(shù)據(jù)完整性受損。

“前沿?cái)?shù)控”平臺(tái)數(shù)據(jù)丟失,發(fā)生在2018年7月20日,當(dāng)天騰訊云運(yùn)維人員是如何發(fā)現(xiàn),又是如何嘗試組織技術(shù)專家修復(fù)的呢?

還原故障過程及故障原因

且看騰訊云還原的全過程:

當(dāng)天(7月20日)上午11:57,我們的運(yùn)維人員收到倉(cāng)庫(kù)Ⅰ空間使用率過高告警,準(zhǔn)備發(fā)起搬遷擴(kuò)容;

在14:05時(shí),運(yùn)維人員從倉(cāng)庫(kù)Ⅰ選擇了一批云盤搬遷至新倉(cāng)庫(kù)Ⅱ,為了加速搬遷,手動(dòng)關(guān)閉了遷移過程中的數(shù)據(jù)校驗(yàn);

在20:27 搬遷完成之后,運(yùn)維人員將客戶的云盤訪問切至倉(cāng)庫(kù)Ⅱ,同時(shí)為了釋放空間,對(duì)倉(cāng)庫(kù)Ⅰ中的源數(shù)據(jù)發(fā)起了回收操作;

到20:30 監(jiān)控發(fā)現(xiàn)倉(cāng)庫(kù)Ⅱ部分云盤出現(xiàn)IO異常。

這個(gè)過程中涉及多次人為操作步驟,但“磁盤靜默錯(cuò)誤導(dǎo)致的單副本數(shù)據(jù)錯(cuò)誤”這一物理過程,運(yùn)維人員是無法操控的,只有當(dāng)中兩次操作是出了“大問題”的:

第一是正常數(shù)據(jù)搬遷流程默認(rèn)開啟數(shù)據(jù)校驗(yàn),開啟之后可以有效發(fā)現(xiàn)并規(guī)避源端數(shù)據(jù)異常,保障搬遷數(shù)據(jù)正確性,但是運(yùn)維人員為了加速完成搬遷任務(wù),違規(guī)關(guān)閉了數(shù)據(jù)校驗(yàn)

第二是正常數(shù)據(jù)搬遷完成之后,源倉(cāng)庫(kù)數(shù)據(jù)應(yīng)保留24小時(shí),用于搬遷異常情況下的數(shù)據(jù)恢復(fù),但是運(yùn)維人員為了盡快降低倉(cāng)庫(kù)使用率,違規(guī)對(duì)源倉(cāng)庫(kù)進(jìn)行了數(shù)據(jù)回收。

騰訊云后續(xù)如何改進(jìn)?降低人工干預(yù)、優(yōu)化巡檢機(jī)制

實(shí)際上,這件事給騰訊云帶來了不小的公關(guān)負(fù)擔(dān)。在復(fù)盤通知里,騰訊云誠(chéng)懇地給出了一些加強(qiáng)和改進(jìn)措施:

首先,我們將全面審視所有的數(shù)據(jù)流程,涉及數(shù)據(jù)安全的流程自動(dòng)化閉環(huán),進(jìn)一步提升我們常規(guī)運(yùn)維自動(dòng)化和流程化,降低人工干預(yù)。同時(shí)把全流程的數(shù)據(jù)安全校驗(yàn)作為系統(tǒng)的常開功能,不允許被關(guān)閉。

其次,針對(duì)物理硬盤靜默數(shù)據(jù)錯(cuò)誤,在當(dāng)前用戶訪問路徑數(shù)據(jù)校驗(yàn)自愈的基礎(chǔ)上,我們優(yōu)化現(xiàn)有巡檢機(jī)制,通過優(yōu)先巡檢主副本數(shù)據(jù)塊、跳過近期用戶訪問過的正確數(shù)據(jù)塊等方法,加速發(fā)現(xiàn)該類錯(cuò)誤,進(jìn)行數(shù)據(jù)修復(fù)。

公告最后,騰訊云提示客戶,實(shí)際上,騰訊云自2016年3月以來一直在提供免費(fèi)的快照功能,可以對(duì)重要數(shù)據(jù)進(jìn)行定期備份。同時(shí)出于對(duì)客戶數(shù)據(jù)隱私性和安全性的考慮,客戶可以自由選擇開啟或者不開啟這一免費(fèi)功能。騰訊云呼吁客戶開啟這一功能,進(jìn)一步提升自身數(shù)據(jù)的安全性。

雙方商量恢復(fù)運(yùn)營(yíng)方案:和解金額未透露,未公布責(zé)任員工名單

此前,“前沿?cái)?shù)控”平臺(tái)基于自身評(píng)估就此次故障對(duì)騰訊云提出了高達(dá)11016000元的索賠要求,騰訊云認(rèn)為這明顯高于他們能夠提供的方案——這也是此次雙方此前未能達(dá)成一致的主要原因之一。

眼下,據(jù)騰訊云方面透露,他們正在“積極與前沿?cái)?shù)控方商量恢復(fù)運(yùn)營(yíng)的方案”。

雷鋒網(wǎng)看來,關(guān)鍵的一點(diǎn)是,他們最終會(huì)達(dá)成多少金額的賠償方案,此前騰訊云14萬的賠償+補(bǔ)償方案遭拒(客戶消費(fèi)額的37倍),這次會(huì)是多少?

因?yàn)?,這不是個(gè)例,后期其他云廠商也會(huì)遇到類似的問題,市場(chǎng)都會(huì)關(guān)注騰訊云的處理方式,畢竟,被“碰瓷”總不是件好事。

值得注意的是,對(duì)于這次事件中誤操作的工作人員,騰訊云沒有點(diǎn)名,也沒有公布處罰方式,預(yù)計(jì)已做內(nèi)部處理。

何為磁盤靜默錯(cuò)誤?騰訊云兩次公告都提及

雷鋒網(wǎng)認(rèn)為,騰訊云兩次公告都提及一個(gè)原因:磁盤靜默錯(cuò)誤。究竟這是什么類型的錯(cuò)誤?元兇是什么?

Martin Petersen 和 Sonny Singh在《Emulex 和 Oracle 最佳實(shí)踐》一書中曾指出,數(shù)據(jù)損壞經(jīng)常發(fā)生在寫入磁盤驅(qū)動(dòng)器的時(shí)候。磁盤驅(qū)動(dòng)器損壞有兩種基本類型:

第一種是潛在扇區(qū)錯(cuò)誤,通常由物理磁盤驅(qū)動(dòng)器故障導(dǎo)致。例如,磁盤陣列報(bào)告的文件系統(tǒng)讀取錯(cuò)誤。這種類型的損壞通常由 I/O 路徑中的糾錯(cuò)碼 (ECC) 或循環(huán)冗余校驗(yàn) (CRC) 檢測(cè)到,常常會(huì)自動(dòng)糾正。

第二種是靜默數(shù)據(jù)損壞,可在沒有警告的情況下發(fā)生,可以定義為組件故障或管理操作疏忽所導(dǎo)致的非惡意數(shù)據(jù)丟失。靜默數(shù)據(jù)損壞發(fā)生在讀取或?qū)懭霟o效數(shù)據(jù)時(shí),不會(huì)導(dǎo)致 I/O 操作失敗。這種類型的損壞是最具災(zāi)難性的,如果沒有端到端的數(shù)據(jù)完整性檢查,是沒有有效的方法來檢測(cè)它的。

使用虛擬化服務(wù)器和多核處理器,會(huì)增大故障存儲(chǔ)單元導(dǎo)致錯(cuò)誤的可能。如果在應(yīng)用程序或數(shù)據(jù)中心工作人員不知情的情況下發(fā)生這樣的錯(cuò)誤,就稱為靜默數(shù)據(jù)損壞。盡管靜默數(shù)據(jù)損壞相對(duì)比較少見,但它可能長(zhǎng)時(shí)間不被發(fā)現(xiàn),從而導(dǎo)致代價(jià)高昂的關(guān)鍵業(yè)務(wù)功能無法使用的損失。

導(dǎo)致靜默數(shù)據(jù)損壞的常見元兇包括:

1、操作系統(tǒng),包括核心操作系統(tǒng)和設(shè)備驅(qū)動(dòng)程序

2、存儲(chǔ)硬件和固件

3、管理錯(cuò)誤

那么“靜默數(shù)據(jù)損壞”發(fā)生的概率有多少呢?

《Silent data corruption in SATA arrays: A solution - Josh Eddy August 2008》一書曾對(duì)靜默錯(cuò)誤進(jìn)行了解釋。該文提供了一組數(shù)據(jù):

一項(xiàng)針對(duì)NetApp數(shù)據(jù)庫(kù)中150萬個(gè)硬盤驅(qū)動(dòng)器的學(xué)術(shù)研究在32個(gè)月內(nèi)發(fā)現(xiàn),8.5%的SATA磁盤會(huì)產(chǎn)生靜默損壞。某些磁盤陣列運(yùn)行后臺(tái)進(jìn)程,以驗(yàn)證數(shù)據(jù)和RAID奇偶校驗(yàn)是否匹配,并且可以捕獲這些類型的錯(cuò)誤。然而,該研究還發(fā)現(xiàn),后臺(tái)驗(yàn)證過程中錯(cuò)過了13%的錯(cuò)誤。

這意味著——沒有被發(fā)現(xiàn)的那些錯(cuò)誤,最終會(huì)讓企業(yè)為此承擔(dān)風(fēng)險(xiǎn)、付出代價(jià)。實(shí)際上,隨著網(wǎng)絡(luò)安全越發(fā)重要,關(guān)于“靜默數(shù)據(jù)損壞”這個(gè)領(lǐng)域,相當(dāng)值得各大云廠商加以關(guān)注并投入研究。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

主編

雷鋒網(wǎng)副主編,長(zhǎng)期跟蹤企業(yè)技術(shù)戰(zhàn)略,聚焦ToB。選題重點(diǎn)是專訪和深度策劃文~ 加我請(qǐng)?zhí)砑游⑿牛簀arvis1587,備注來意。
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說