(1)災(zāi)備的基礎(chǔ)知識
衡量一個災(zāi)備系統(tǒng)建設(shè)優(yōu)秀與否,或是否符合等級保護要求的兩大關(guān)鍵指標是恢復(fù)時間目標(RTO)、恢復(fù)點目標(RPO)。
恢復(fù)時間目標(RTO)∶Recovery Time Objective,即恢復(fù)時間目標,指的是用戶業(yè)務(wù)系統(tǒng)所能容忍的業(yè)務(wù)停止服務(wù)的最長時間。
恢復(fù)點目標(RPO)∶Recovery Point Objective,即數(shù)據(jù)恢復(fù)點目標,指的是業(yè)務(wù)系統(tǒng)所能容忍的數(shù)據(jù)丟失量。
根據(jù)恢復(fù)的目標與需要的成本投入,災(zāi)備等級依次可分為數(shù)據(jù)級災(zāi)備、應(yīng)用級災(zāi)備、業(yè)務(wù)級災(zāi)備,級別越高,需要投資的費用也相應(yīng)增長。
云災(zāi)備∶狹義上,云災(zāi)備是將災(zāi)備看作一種服務(wù),由客戶付費使用災(zāi)備服務(wù)提供商提供災(zāi)備的服務(wù)模式,行業(yè)通常稱為DRaaS,租戶通過類似于災(zāi)備計算管理平臺,按需設(shè)置容災(zāi)備份規(guī)則,實現(xiàn)對多租戶的災(zāi)備管理,確保云端數(shù)據(jù)安全。廣義上,云災(zāi)備是本地災(zāi)備的延伸拓展,容災(zāi)備份的場景可發(fā)生于云平臺,或本地與云平臺間。在云災(zāi)備的模式下,數(shù)據(jù)保護的對象和災(zāi)備的目標端由本地系統(tǒng)轉(zhuǎn)向云端系統(tǒng)。和本地災(zāi)備相比,云災(zāi)備的傳輸環(huán)境具有帶寬窄、不穩(wěn)定等特點,對數(shù)據(jù)復(fù)制技術(shù)的壓縮能力、斷點續(xù)傳能力等提出了更高的要求。
云災(zāi)備(云容災(zāi)、云備份)提供商可以是云平臺服務(wù)商,也可以是災(zāi)備服務(wù)商。相比前者,災(zāi)備服務(wù)商在專業(yè)度、備份顆粒度、兼容性、跨平臺系統(tǒng)遷移及數(shù)據(jù)保護方面,更有優(yōu)勢。
災(zāi)備演練∶指通過假設(shè)某種災(zāi)難場景發(fā)生時,如系統(tǒng)宕機、地震、火災(zāi)等,災(zāi)備系統(tǒng)或體系是否可緊急使用,進而進行的一種主動應(yīng)急演練行為。在金融、醫(yī)療、政務(wù)等領(lǐng)域常舉行周期性的災(zāi)備演練。
業(yè)務(wù)連續(xù)性∶是災(zāi)備技術(shù)的升華概念,是一種由計劃和執(zhí)行過程組成的策略,其目的是為了保證企業(yè)包括生產(chǎn)、銷售、市場、財務(wù)、管理以及其他各種重要的功能完全在內(nèi)的運營狀況安全可用。業(yè)務(wù)連續(xù)性是覆蓋整個企業(yè)的技術(shù)以及操作方式的集合,其目的是保證企業(yè)信息流在任何時候,及任何需要的狀況下都能保持業(yè)務(wù)連續(xù)運行。
業(yè)務(wù)連續(xù)性管理(BCM)∶是一項綜合管理流程,相比災(zāi)備涉及的企業(yè)領(lǐng)導(dǎo)層更高,BCM是企業(yè)為潛在的危機制訂的一系列響應(yīng)、業(yè)務(wù)和連續(xù)性恢復(fù)計劃,其總體目標是為了提高企業(yè)的風險防范能力,以有效地響應(yīng)非計劃的業(yè)務(wù)破壞并降低不良影響。如通過BCM提升自然災(zāi)害、戰(zhàn)爭、國際貿(mào)易爭端、非公平性競爭打壓等等對企業(yè)經(jīng)營的影響。
(2)備份及相關(guān)知識備份∶
數(shù)據(jù)或系統(tǒng)的備份,它是容災(zāi)的基礎(chǔ),是指為防止系統(tǒng)出現(xiàn)操作失誤或故障導(dǎo)致的數(shù)據(jù)丟失,而將全部或部分數(shù)據(jù)集合從應(yīng)用主機的硬盤或陣列復(fù)制到其它存儲介質(zhì)的過程。根據(jù)中國災(zāi)備行業(yè)白皮書的匯總,備份分類有多種方式。
A.按照備份時間頻率分為∶定時備份、實時備份。
定時備份∶是指有時間間隔的數(shù)據(jù)備份方式,比如一天一次,一周一次,或一個月一次,定時備份會出現(xiàn)數(shù)據(jù)丟失的情況。
實時備份∶是指無時間間隔的數(shù)據(jù)備份方式,通過數(shù)據(jù)實時復(fù)制技術(shù),保證主備兩端的數(shù)據(jù)讀寫一致,確保數(shù)據(jù)的丟失量最少,甚至不丟失。
持續(xù)數(shù)據(jù)保護(CDP),也稱作持續(xù)備份,是一個在任何變化發(fā)生時,能準實時地備份企業(yè)數(shù)據(jù)。CDP技術(shù)是對傳統(tǒng)數(shù)據(jù)備份技術(shù)的一次革命性的重大突破。傳統(tǒng)的數(shù)據(jù)備份解決方案專注在對數(shù)據(jù)的周期性備份上,因此一直伴隨有備份窗口、數(shù)據(jù)一致性以及對生產(chǎn)系統(tǒng)的影響等問題。
B.按照備份數(shù)據(jù)量分為∶全量備份、增量備份、差量備份。
全量備份∶用存儲介質(zhì)對整個數(shù)據(jù)及系統(tǒng)進行完全備份。這種備份方式的好處是很直觀,容易被人理解,易恢復(fù);缺點是在備份數(shù)據(jù)中有大量重復(fù)數(shù)據(jù),由于需要備份的數(shù)據(jù)量相當大,因此備份所需時間較長。
增量備份∶每次備份的數(shù)據(jù)只是相當于上一次備份后增加和修改后的數(shù)據(jù)。這種備份的優(yōu)點很明顯,重復(fù)數(shù)據(jù)少,即節(jié)省存儲空間,又縮短了備份時間。
差量備份∶是拷貝所有新產(chǎn)生或更新的數(shù)據(jù),這些數(shù)據(jù)都是最近一次全量備份后產(chǎn)生或更新的。
增量備份與差量備份的區(qū)別是,增量備份判斷數(shù)據(jù)更新標準是依據(jù)上一次備份檢查點,而差量備份一定是依據(jù)全量備份檢查點。如沒有全量備份,就沒有差量備份。差量備份的主要目的是限制完全恢復(fù)時使用的介質(zhì)數(shù)量。
數(shù)據(jù)副本管理(Copy Data Management,CDM),是一種能節(jié)約存儲資源、有效管理數(shù)據(jù)生命周期的技術(shù)方式,包括消除不必要的重復(fù)生產(chǎn)數(shù)據(jù)。由于傳統(tǒng)備份軟件和企業(yè)應(yīng)用程序獨立運行,經(jīng)常會創(chuàng)建多個相同數(shù)據(jù)的副本,數(shù)據(jù)副本管理技術(shù)也因此得名。
目前,行業(yè)比較常見的CDM產(chǎn)品,通常采用“首次全量+永久增量”的備份方式,在系統(tǒng)層、數(shù)據(jù)庫層、系統(tǒng)層等進行數(shù)據(jù)快速采集,然后根據(jù)用戶環(huán)境設(shè)置備份周期和規(guī)則,通過掛載恢復(fù)的方式,快速恢復(fù)用戶的數(shù)據(jù)及業(yè)務(wù)。
Image備份∶指映像級備份,Image備份可對整個文件卷進行數(shù)據(jù)塊級別備份,備份傳輸?shù)氖菙?shù)據(jù)塊而不是文件。這種備份不僅做全備份時效率提高,而且在增量備份時會更快。它采用快照技術(shù)來創(chuàng)建一個近似于及時的數(shù)據(jù)映像,然后對快照數(shù)據(jù)映像進行備份,對應(yīng)用的影響很小。適合文件個數(shù)在百萬量級以上的大型文件系統(tǒng),以及更多要求恢復(fù)整個文件卷的應(yīng)用環(huán)境。
另外,傳統(tǒng)的備份非常強調(diào)兩類技術(shù)重刪和壓縮。
重刪:即重復(fù)數(shù)據(jù)刪除,是一種可自動搜索重復(fù)數(shù)據(jù),將相同數(shù)據(jù)只保留唯一的一個副本,并使用指向單一副本的指針替換掉其他重復(fù)副本,已達到消除數(shù)據(jù)冗余,降低存儲容量需求的技術(shù)。通常用于基于磁盤的備份系統(tǒng),旨在減少存儲系統(tǒng)中使用的存儲容量。重刪技術(shù)涵蓋源端去重和宿端去重,技術(shù)分類包括相同數(shù)據(jù)的檢測技術(shù)、相似數(shù)據(jù)的檢測與編碼技術(shù)。
壓縮∶是指在不丟失信息的前提下,縮減數(shù)據(jù)量以減少存儲空間,提高其傳輸、存儲和處理效率的一種技術(shù),或者指按照一定的算法對數(shù)據(jù)進行重新組織,減少數(shù)據(jù)的冗余和存儲的空間。壓縮可以分為無損壓縮和有損壓縮。
備份技術(shù)在不斷進步,行業(yè)應(yīng)該用發(fā)展的眼光去看待備份技術(shù)的進步,并非所有的備份技術(shù)都需要進行重刪或壓縮,例如CDP技術(shù)。
C.按照備份對象分為∶塊級備份、文件級備份、數(shù)據(jù)庫備份。
我們需要了解,什么叫做塊級、文件級。首先看物理塊與文件系統(tǒng)之間映射關(guān)系扇區(qū)->物理塊->邏輯塊->文件系統(tǒng)。
塊級是指以扇區(qū)為基礎(chǔ),一個或連續(xù)的扇區(qū)組成一個塊,也稱為物理塊。它是在文件系統(tǒng)與塊設(shè)備(如磁盤驅(qū)動器)之間。塊級別訪問是直接通過讀寫存儲空間(磁盤、邏輯單元號Lun、文件集Volume)中的一個或者一段地址來存取數(shù)據(jù)。
文件級是指文件系統(tǒng),單個文件可能由一個或多個邏輯塊組成,且邏輯塊之間是不連續(xù)分布。邏輯塊大于或等于物理塊整數(shù)倍。文件級別訪問是通過讀寫某個文件中的一段數(shù)據(jù)完成,如主機發(fā)出指令,需要存儲設(shè)備將C盤下A文件的前128字節(jié)進行復(fù)制。
塊級備份∶以磁盤塊為基本單位,將數(shù)據(jù)從源端復(fù)制到備端,即每次備份數(shù)據(jù)以一個扇區(qū)或多個連續(xù)扇區(qū)為單位來進行備份。
文件級備份∶以文件為基本單位,將數(shù)據(jù)以文件的形式讀出,通過文件系統(tǒng)接口調(diào)用備份到另一個介質(zhì)上。
兩者比較,相比傳統(tǒng)的文件級備份,塊級備份效率高,備份時間短,且增量備份時,只備份修改過的物理塊。而傳統(tǒng)文件級備份,首先會查找每個文件邏輯塊,其次物理塊,由于邏輯塊是分散在物理塊上,而物理塊也是分散在不同扇區(qū)上。需要一層一層往下查找,最后才完成整個文件復(fù)制。
數(shù)據(jù)庫備份∶圍繞數(shù)據(jù)庫對各種表、索引、視圖、事務(wù)日志等進行定時或?qū)崟r的備份,按照備份數(shù)據(jù)庫的大小,數(shù)據(jù)庫備份可以分為完全備份、事務(wù)日志備份、差異備份等類型。
此外,根據(jù)備份時服務(wù)器是否停機又可分為冷備、熱備、溫備按照數(shù)據(jù)存儲介質(zhì)之間的距離又可以分為本地備份和異地備份,以及按照數(shù)據(jù)備份量大小及路徑所劃分的LAN(局域網(wǎng))、LAN free 備份、Server Free 備份等等。
(3)容災(zāi)及相關(guān)知識
提到容災(zāi),必然提到數(shù)據(jù)中心與容災(zāi)中心,以及兩地三中心。其中兩地三中心的兩地是指同城和異地,三中心是指生產(chǎn)中心、同城容災(zāi)中心、異地容災(zāi)中心,結(jié)合起來就是兩地三中心,一般是指同城雙活、容災(zāi)和異地備份技術(shù)的結(jié)合。
容災(zāi)∶是指在相隔較遠的異地,建立兩套或多套功能相同的IT系統(tǒng),互相之間可以進行健康狀態(tài)監(jiān)視和功能切換,當一處系統(tǒng)因意外(如地震、停電、火災(zāi)、洪災(zāi)等)停止工作時,整個應(yīng)用系統(tǒng)可以切換到另一處,使得該系統(tǒng)功能可以繼續(xù)正常工作。
容災(zāi)技術(shù)是系統(tǒng)的高可用性技術(shù)的一個組成部分,容災(zāi)系統(tǒng)更加強調(diào)處理外界環(huán)境對系統(tǒng)的影響,特別是災(zāi)難性事件對整個IT節(jié)點的影響,提供節(jié)點級別的系統(tǒng)恢復(fù)功能。容災(zāi)可分為本地容災(zāi)、異地容災(zāi)、云容災(zāi)。需要注意的是,集群等確保系統(tǒng)可用性的冗余方案,不等于容災(zāi)。在行業(yè)應(yīng)用中,部分專業(yè)人士也容易混淆,導(dǎo)致集群系統(tǒng)出現(xiàn)故障時,發(fā)生大面積業(yè)務(wù)中斷服務(wù)的情況,給組織帶來經(jīng)濟和形象方面的損害。
滿足容災(zāi)的三個基本條件∶
一是系統(tǒng)中的部件、數(shù)據(jù)都具有冗余性,當其中一個系統(tǒng)發(fā)生故障停止服務(wù)時,另一個系統(tǒng)能夠繼續(xù)提供服務(wù)
二是兩個系統(tǒng)之間要相隔一定距離,如50公里左右,可提高容災(zāi)系統(tǒng)的抗風險能力
三是容災(zāi)系統(tǒng)在數(shù)據(jù)復(fù)制生命周期中,數(shù)據(jù)具備一致性、可用性和可恢復(fù)性。
從其對系統(tǒng)的保護程度區(qū)分,容災(zāi)系統(tǒng)可分為數(shù)據(jù)級容災(zāi)、應(yīng)用級容災(zāi)和業(yè)務(wù)級容災(zāi)。
數(shù)據(jù)級容災(zāi)∶指通過建立異地容災(zāi)中心,做數(shù)據(jù)的遠程備份,在災(zāi)難發(fā)生后要確保原有的數(shù)據(jù)不會丟失或者遭到破壞。數(shù)據(jù)級容災(zāi)在發(fā)生災(zāi)難時應(yīng)用會中斷,且業(yè)務(wù)恢復(fù)的時間比較長。但是相比其他容災(zāi)級別費用比較低,而且構(gòu)建實施也相對簡單。
應(yīng)用級容災(zāi)∶指在數(shù)據(jù)級容災(zāi)基礎(chǔ)上,在異地容災(zāi)中心構(gòu)建一套相同的應(yīng)用系統(tǒng),通過同步或異步復(fù)制技術(shù)進行數(shù)據(jù)的實時復(fù)制,保證關(guān)鍵應(yīng)用在允許的時間范圍內(nèi)恢復(fù)運行,盡可能減少故障帶來的損失,讓用戶基本感受不到故障的發(fā)生。應(yīng)用級容災(zāi)是一個復(fù)雜的IT工程,不僅涉及到各類切換技術(shù),還會涉及到人員的調(diào)配等,所以建設(shè)和運維成本相當高,通常只有銀行、證券等關(guān)鍵機構(gòu)因業(yè)務(wù)和監(jiān)管要求,才會進行應(yīng)用級容災(zāi)體系建設(shè)。
業(yè)務(wù)級容災(zāi)∶指所有核心業(yè)務(wù)的容災(zāi),除了IT網(wǎng)絡(luò)設(shè)備齊全,還要求場地、電力等基礎(chǔ)設(shè)施建設(shè)完善,是所有容災(zāi)等級中最高的。隨著組織數(shù)字化轉(zhuǎn)型和信息化的發(fā)展,多中心生產(chǎn)的多活模式正在成為行業(yè)趨勢,如國有大型銀行可在全國建設(shè)多個數(shù)據(jù)中心,每兩個中心互備,實現(xiàn)業(yè)務(wù)級容災(zāi)。同時,為了避免過度建設(shè)數(shù)據(jù)造成資源浪費,增加數(shù)據(jù)中心的電力負擔,對于中小銀行等機構(gòu),資產(chǎn)規(guī)模在五千億以下的沒必要自建數(shù)據(jù)中心。
高可用∶指通過盡量縮短因日常維護操作(計劃)和突發(fā)的系統(tǒng)崩潰(非計劃)所導(dǎo)致的停機時間,以提高系統(tǒng)和應(yīng)用的可用性,是企業(yè)防止計算機系統(tǒng)因故障停機的最有效手段。
在國內(nèi),基于高可用系統(tǒng)中的兩臺服務(wù)器的熱備(或高可用)使用較多,因此雙機熱備常被人提起。雙機熱備按工作中的切換方式分為∶ 主備方式(Active-Standby方式)和雙主方式(Active-Active方式)。
容災(zāi)與雙活區(qū)別∶雙活是系統(tǒng)冗余的范疇,容災(zāi)則包括在建立災(zāi)備系統(tǒng)時,需要涉及到多種切換技術(shù),如SAN或NAS技術(shù)、遠程鏡像技術(shù)、基于IP的SAN的互連技術(shù)、快照技術(shù)等。通常來講,容災(zāi)的建設(shè)成本要比雙活低,數(shù)據(jù)丟失風險要比雙活低。