发新话题
打印

浅谈数据备份策略

浅谈数据备份策略

数字信息推动着商业的发展的同时,也变得与人们的生活息息相关。如网上银行、数码相机、Intranet、客户资料等信息是人们工作、生活不可缺少的部分,人们对数据的重要性有了越来越重要的认识。

为了加强数据的安全性,各种不同的备份软件也就应运而生了,如IBM的Tivoli存储管理器(TSM),Veritas公司的NetBackup,Legato公司的NetWorker,CA的ARCserve等,软件不同,功能各异。从备份策略来讲,现在的备份可分为三种:完全备份、增量备份、差异备份、累加备份策略。下面来讨论以下这几种备份方式:

完全备份就是拷贝给定计算机或文件系统上的所有文件,而不管它是否被改变。

增量备份就是只备份在上一次备份后增加、改动的部分数据。增量备份可分为多级,每一次增量都源自上一次备份后的改动部分。

差异备份就是只备份在上一次完全备份后有变化的部分数据。如果只存在两次备份,则增量备份和差异备份内容一样。

累加备份采用数据库的管理方式,记录累积每个时间点的变化,并把变化后的值备份到相应的数组中,这种备份方式可恢复到指点的时间点。

一般在使用过程中,这三种策略常结合使用,常用的方法有:完全备份、完全备份加增量备份、完全备份加差异备份、完全备份加累加备份。

完全备份会产生大量数据移动,选择每天完全备份的客户经常直接把磁带介质连接到每台计算机上(避免通过网络传输数据)。这样,由于人的干预(放置磁带或填充自动装载设备),磁带驱动器很少成为自动系统的一部分。其结果是较差的经济效益和较高的人力花费。

完全备份加增量备份源自完全备份,不过减少了数据移动,其思想是较少使用完全备份。比如说在周六晚上进行完全备份(此时对网络和系统的使用最小)。在其它6天(周日到周五)则进行增量备份。增量备份会问这样的问题:自昨天以来,哪些文件发生了变化?这些发生变化的文件将存储在当天的增量备份磁带上。

使用周日到周五的增量备份能保证只移动那些在最近24小时内改变了的文件,而不是所有文件。由于只有较少的数据移动和存储,增量备份减少了对磁带介质的需求。对客户来讲则可以在一个自动系统中应用更加集中的磁带库,以便允许多个客户机共享昂贵的资源。然而,当恢复数据时,困难产生了。
在完全+增量方法下,完整的恢复过程首先需要恢复上周六晚的完全备份。然后再覆盖自完全备份以来每天的增量备份。该过程最坏的情况是要设置7个磁带集(每天一个)。如果文件每天都改的话,需要恢复7次才能得到最新状态。

图6:完全+增量备份


由于完全+增量方法中恢复很困难,后来有了完全+差异方法。差异成为备份过程考虑的问题。增量备份考虑:自昨天以来哪些文件改变了?而差异方法考虑:自完全备份以来哪些文件发生了变化?对于完全备份后立即的备份过程(本例中周六),因为完全备份就在昨天,所以这两个问题的答案是相同的。但到了周一,答案不一样了。增量方法会问:昨天以来哪些文件改变了?并备份24小时内改变了的文件。差异方法问:完全备份以来哪些文件改变了?然后备份48小时内改变了的文件。到了周二,差异备份方法备份72小时内改变了的文件。

尽管差异备份比增量备份移动和存储更多的数据,但恢复操作简单多了。在完全+差异方法下,完整的恢复操作首先恢复上周六晚的完全备份。然后,差异方法不是覆盖每个增量备份磁带,而是直接跳向最近的磁带,覆盖积累的改变。

图7:完全+差异备份



在Tivoli存储管理器之前,客户被迫在完全备份、完全+增量备份和完全+差异备份间权衡。许多客户在管理时都会混合和匹配这三种方法,试图得到期望的可重获性水平。

Tivoli存储管理器引入了一个新范例叫累加备份方法。累加方法提出增量问题:自昨天以来哪些文件改变了?并把结果放到存储管理器数据库中。这样当首次用累加方法备份文件系统或计算机时,由于Tivoli存储管理器以前未曾备份,所有的文件都将移动。当备份拷贝发送到Tivoli存储管理器服务器时,每个文件单独存放在数据库中。文件名信息、所有者和安全信息、创建和修改时间,以及拷贝自身都放置在Tivoli存储管理器服务器连续存储分层结构中(参见图8)。如果客户策略要求拷贝到磁带上,Tivoli存储管理器数据库将记录磁带的条形码、起始块地址和文件长度。

在初始的备份后,将只考虑增量问题(不再进行完全拷贝)。每天将只移动上次备份操作后改变了的文件。并且,文件发送到Tivoli存储管理器服务器后被单独存放在数据库中。当需要拷贝到磁带时,Tivoli存储管理器服务器查询数据库,确定从前的拷贝在哪一个磁带上。一旦确定,将对该磁带进行再设置并把新拷贝附加在磁带末尾。这种对备份拷贝的收集都来自于同一台计算机或文件系统,于是形成了所谓的排列组。每天,改变的文件累加到排列组中(见图)。

图8:累加备份


现在让我们来看恢复操作。恢复操作的目标是让文件系统或计算机回到期望的某一时间点。常见的情况是客户期望的时间点就是最近某时刻。在累加备份方法下,完成一个完全的恢复操作只需告诉Tivoli存储管理器服务器期望的时间点。利用时间点信息,Tivoli存储管理器服务器查询数据库中文件集合,看它们是否在期望的时间点上。这些文件存在于同一个排列组上,通常也位于一个(或少数几个)磁带上。设置了正确的磁带后,数据库指定每个文件的长度和起始块位置。大多数现代的磁带驱动器都具有快速扫描功能,能迅速定位到期望的备份拷贝并执行恢复操作,这样只移动了期望的文件。您可以把该过程看作完全系统操作中一个完整的恢复过程。该过程就象在期望的时间点做了完全备份一样。

图9:时间点恢复


累加备份采用增量,提供了备份效率;采用排列组,提高了介质管理效率;准确地只移动期望的文件,提高了恢复效率。该方法最大的功效还在于:累加方法并不需要在一个完全备份后才能开始恢复过程,也就是说并不需要周期性地建立完全备份拷贝。而对完全+增量或完全+差异方法,无论是否改变,每周都要移动和存储大量数据。有了累加备份方法,就不需要这样做了。于是客户节省了大量的网络带宽(LAN、WAN或SAN)、磁带介质和时间。
不同的软件有不同的备份特点,客户可根据自己的数据特点,选择适合自己的软件或备份策略。

[ 本帖最后由 angle 于 2008-4-21 12:04 编辑 ]

进入偶的Blog
妈妈说,不要和不在Space开博客的人说话,他们是坏蛋。

TOP

感謝您的精彩回複

dear angel:
                       另有幾個問題想問下,最近這些時日對異地備份的概念沒有深刻的理解,我想知道您對它的看法!

       1、因為我公司有用be 11,這幾天我有發現,軟體在備份過程中,機器有掉線的情況,
       請問當如何解決?是否有補丁可以修正?

       2、還有一個問題是除去內存與網絡接口卡,還有什麽影響備份的進度,如果有一台server備份進度低至2M\m的話,應當如何解決?
         
       3、曾經有發生過這樣一個問題,對文件服務器備份的時候,如果有一個目錄給刪除而找不到文件導致備份 failed,有沒有比較好的解決方法?
                         TKS     best wishes!

TOP

关于BE 11的问题,我想我们的 赛门铁克 存储技术讨论区 有很多的专家可以给您更好的建议。

进入偶的Blog
妈妈说,不要和不在Space开博客的人说话,他们是坏蛋。

TOP

引用:
原帖由 kisrose 于 2008-4-23 22:09 发表
dear angel:
                       另有幾個問題想問下,最近這些時日對異地備份的概念沒有深刻的理解,我想知道您對它的看法!

       1、因為我公司有用be 11,這幾天我有發現,軟體在備份過程中,機 ...
       1、因為我公司有用be 11,這幾天我有發現,軟體在備份過程中,機器有掉線的情況,
       請問當如何解決?是否有補丁可以修正?

                         无规律丢失连接需要事先启动调试日志,根据日志记录的断点分析可能的原因,补丁当然要打。

       2、還有一個問題是除去內存與網絡接口卡,還有什麽影響備份的進度,如果有一台server備份進度低至2M\m的話,應當如何解決?

                          从数据源到数据目的地一路上都会影响,比如源服务器的性能,网络性能,磁带设备的性能,源数据的特性(小文件要慢很多)。你可以用替换法来分析,比如改备到磁带机为备到硬盘试试看,备远程改为备本地试试看。从而找出bottle neck.
         
       3、曾經有發生過這樣一個問題,對文件服務器備份的時候,如果有一個目錄給刪除而找不到文件導致備份 failed,有沒有比較好的解決方法?

                          如果你选择的目录不存在了,则作业会报错,从12d开始,只会是warning,以前的版本作业会fail,必须手工清除该选项。
                          如果你选择的目录下面的某个子目录不存在了,作业不会受到影响。

TOP

了解一下!!!

TOP

发新话题