12 12
发新话题
打印

企业重生-信息系统的灾难恢复

企业重生-信息系统的灾难恢复

当今的企业越来越依赖于数据来处理各种业务,并需要连续访问关键的信息;由此来保证它在同行中立于不败之地。数据处理的高可靠性和高可用性显而易见就成为了重中之重。因此,每一个企业都必须具有灾难恢复和业务连续性计划并部署相应的技术,这样即使出现灾难也能正常运行。而本书正是介绍如何在受到灾难袭击后让关键数据持续可用的。相信您读完本书定会获益匪浅。

TOP

下面是我看这本书所做的笔记。这本书能够让你对信息系统的灾难恢复有一个非常系统的认识。
http://www.china-pub.com/computers/common/info.asp?id=20253
这是这本书的相关资料。

TOP

用于灾难恢复的信息技术

一、信息服务的可用性
1、可用性
可用性:指需要的时候,可以获得的质量,根据需求定义可用性

可用性的范围:性能和功能
性能:有时,许多系统尽管在功能上可用,但性能水平降低。好比断腿的人仍然是人,但是跑过正常人的几率却不大
功能:系统故障时的系统不能按设计的正常状态运行,但是它还是能够提供部分用途。比如预定系统的交易数据库正在冷备,暂时不能接受预定,但是它仍然可以检查预定状态并回复其他查询。

2、高可用性
高可用性可以做为系统的一个目标
硬件厂商不会宣称他们的系统具有(需要时在手)的可用性,只宣称他们的系统能够经受某种级别的部件故障。不会宣称设计结果,只是设计目标。

不明确标准的相对性质
高只是一个相对的概念

系统在相当长的时间内连续执行某功能的能力

必须对高可用性:选择性定义
高可用性:设计中指明的系统可用性级别应当满足或超过系统实施运行的业务需求。
需要解决的2个问题:系统可用的频率和系统对于用户不可用的结果

3、设计高可用的计算机系统
使用现有组件,确定脆弱组件,为脆弱组件配置冗余组件

冗余组件:主动组件和被动组件
通过监控系统组件的软件来管理冗余组件 (Powerpath,vertias的卷管理器)
三个资源:冗余组件和管理软件,人力资源

在冗余组件使用后,将会降低运行级别
4、部件故障和宕机
常见的部件故障:
系统崩溃、应用程序崩溃、磁盘崩溃、磁盘已满、网络故障、断电、 数据中心故障、建筑物故障、较大范围的灾难(自然灾难)

5、宕机时间
宕机可能永久丢失以前没有保存的数据   
数据丢失和计划外停机

6、可用性目指标
N个9   
没有明确具体的时间,业务高峰时间的停机或者空闲时间(所有的停机时间都不是等值的)
N个组件的可用性是n个9,系统整体可用性是n个9的n次方

什么时间出现什么类型的停机   
结论:在宕机的各个时段中,必须考虑宕机的每一个时段对服务恢复的重要性质

需要考虑的问题: 宕机的时间
恢复时间目标
数据实时性或恢复点
降级运行时间
计划内停机

TOP

二、备份和灾难恢复
1、数据保护
备份是数据保护最基本的数据保护方法

数据保护主要包括制作和使用重要的数据拷贝,备份有很多技术的难点:
        设计和实施适当策略,使数据能在适当的时间到达适当的地点,即使发生故障或程序错误
        追踪文件的拷贝位置(例如,那些备份在那些磁带上,以及磁带保存的位置)
        拷贝时保证目标数据的内部一致性
        最大限度的减少由于备份应用程序不能使用数据而导致的信息系统服务宕机时间
        确定管理策略何时改变会有效,如备份策略频率应当何时增加,或者产品数据或价格表副本应当合适复制到办事处,才能够减少网络数据流量

2、备份
备份是数据保护体系结构的核心。
备份是特定数据(理想状态下)在其存在的某一时刻的复制
备份的意义:发生故障,灾难,程序错误后尽快的恢复
            使数据能快速而容易地转移
            历史数据的保存符合商业或法律需要

3、备份的复杂性
        数据的组织和分类:确定正确的备份目标数据
        资源使用和数据实时之间的平衡:备份需要消耗各种资源(各种软硬件资源),找到备份频率和资源消耗的平衡点
        平台和数据管理器:将不同平台(不同的OS,不同的业务需求)目标数据备份机制整合成一种方案
        技术选择:在最少的停机时间实现一致性数据备份,选择适合的备份技术
        业务限制:备份的数据需要保存多久
        地理位置:分散保存

4.备份出现的问题
数据的负担:针对不同平台的开发和维护使用不同的备份技巧和经验
可靠的执行:在任何情况下,都不要忽视备份工作
介质处理错误:介质损坏
恢复执行的压力:在线数据丢失的时候,需要从备份种恢复数据,情景往往十分紧张,容易出错

备份结构的四大功能组件
备份客户端
备份服务器:包括主备份服务器和介质服务器
备份存储单元:是磁盘,磁带和光盘,通常由介质服务器进行控制和管理

5、扩展备份
可扩展备份体系结构,具有两大优势
中心控制:主备份服务器为整个企业维护备份计划和数据编目(作为目录,以便查询和修改)
资源扩展和共享:介质服务器可以随时随地添加到系统

设计备份体系结构时,必须分析分布式备份对网络流量的影响,从而决定
应用和备份流量共享企业网络
基于主机备份的专用备份网络
   使用存储区域网备份流量(SAN
   通过直接连接到应用服务器的介质服务器,进行本地备份

6、备份策略
备份策略是一系列规则,决定了:
     什么数据需要备份
     应当何时备份数据
     应当将数据备份到何处
何时备份是因为需要考虑资源消耗,包括各种网络资源,系统资源和存储介质
数据备份到何处,介质如何管理,可以避免磁带过于频繁读写

备份策略的参数包括:
             备份客户端
             文件和目录列表
             合格介质服务器,介质类型与介质池,设备组
             信息排程(顺序,排列的日程,时间的安排)
    通常备份策略还会制定不同策略具有不同的优先级别
7、增量备份
差异备份是包含最新任意类型备份之后修改的所有文件拷贝
             恢复过程中需要 最新的全备+n份增量备份
累积备份是最新全备份后修改的所有文件拷贝
             恢复过程中需要 最新的全备+累积备份

8.数据库备份
数据库的热备:数据库管理系统一般能够进行时间点的数据库的备份,所采用的技术类似于文件系统的快照。暂停数据库的活动,进行备份。备份程序读取以前的镜像,其他的所有应用程序读取实时目标数据内容。

数据库备份=瞬间的镜像+此后变化的内容(oracle使用日志回滚得到)
每一个快照都代表了某个时间点数据库数据的镜像
        快照技术采用随写随拷贝(copy on write),或者采用在线镜像分离出来的数据库卷的完整镜像拷贝方式
        块级的增量备份只备份快照后修改的数据库块
        和文件系统的增量备份一样,块级的增量备份对资源需求的降低但会增加恢复的复杂性

9、存档
存档是把制定的文件按照预定的时间计划拷贝到备份介质,然后进行编目,以便日后查询

存档和备份的不同之处:
一旦存档任务完成,被存档的文件将从硬盘删除,以释放空间,以做他用

10、备份管理器性能
影响备份速度的变量
在分布式信息服务的企业中,有几个变量会影响到备份的速度
        客户端的负载:应用服务器忙于其他工作时,可能会使备份客户端不能快速地获取数据,从而导致数据备份过程处于不饱和状态
        网络的负载:当网络流量被应用程序数据主导时,备份客户端就不能快速的传送数据,从而导致介质服务器或磁带机处于不饱和状态
        介质服务器的负载:介质服务器有可能忙于其他备份任务(或其他工作),从而导致磁带机处于不饱和状态
        磁带机的数据传输速率:如果数据传输速度赶不上磁带机的数据流,磁带机的性能就会大大的降低。

备份的方式:
并行备份:大规模的备份任务可以通过把数据分散到几个磁带同时进行备份的方法来提高速度。
快闪备份:就是将文件系统占用的所有磁盘数据块一次性读取,然后不间断地写入磁带中,其中包括没有指派给文件的数据块。

快闪备份的好处
常规的备份管理器在备份时,打开需要备份的文件,然后逐个拷贝,结果是文件系统输入/输出的开销非常大。快闪备份能够可能快的读取磁盘块的内容,而不管这些数据代表用户数据,文件系统元数据还是代表未分配的空间
要从快闪备份中检索文件,备份管理器必须重建文件系统元数据,然后从磁带上的潜在分散区域检索该文件。数据是在恢复时候被重新创建,因此快闪备份的速度特别快,但是恢复的时间比较长。
快闪备份最适合于大量小文件的系统,因为在常规的备份中,这些小文件会引发系统的巨大的I/O开销。


11、备份管理器的性能
        有效的利用硬件:是否支持多路备份独立数据流,又能支持并行备份某个多路流。例如
多个带机或者多一些光纤通道 SCSI通道。
        热备份:可以在应用程序访问数据库和文件系统时进行备份。
        开放式磁带格式:可以将备份数据写到不需要特殊软件或授权就可以读取或恢复的磁带中。
        统一管理:在一个控制台统一管理整个系统的所有子系统的备份
        快速灾难恢复:有些备份管理器可以通过扫描备份磁带内容来重建编目,在极端的情况下,这个功能十分有用
        硬件支持及其灵活性:便于备份介质的升级和不同型号产品的更换
        广泛的平台支持:支持多种的OS平台或数据库平台
        全面的介质管理:合理的管理所有介质
        随写随拷贝快照:快展技术能够拷贝用户数据和元数据修改以前的镜像,就像是原始的文件系统及其内容冻结在某个时间点一样

12、最小化备份窗口技术
理想备份窗口的长度该为0  (这是不可能的)

热备份最大的问题就是保证数据的一致性:由于备份操作通常会持续一段时间,而在这段时间,应用程序通常又会更新数据,就必须将数据和可能更新数据的应用程序完全隔离
只有文件系统,数据库管理器,甚至API的某些应用程序整合起来,才能让备份服务器冻结数据镜像,以便在数据使用时进行数据备份,获得某一时间点的一致性镜像

热备份对应用,OS和网络性能不可避免会明显影响,采用热备份和前面所讲的增量备份或块级增量备份,可以最小化备份的持续时间和资源影响

13、备份的最佳实践
        避免使用磁盘镜像来代替备份:对于意外删除或文件本身损毁,镜像毫无用处
        自觉优化:常见的恢复不是灾难恢复,而是个别被意外删除或毁坏的文件的恢复。比如备份使用了很多磁带,无法分析这个文件是在那卷带里面,只有全部恢复。如果是磁盘或者就可以寻找到,或者优化备份的方法。
        定期测试恢复:无法读取的备份是毫无用途的,定期的测试能有效的避免这个问题。
        维修保养磁机
          保持磁带清洁
        避免磁带使用超过制定使用期限
        更新存档数据:应谨慎地将数据存档重新复制到新的介质上,这种复制不必频繁,但要定期进行
        用多个拷贝保护重要数据:至少一份数据放在远程
        设计备份的弹性:重要数据的备份系统避免单点故障
        确保备份介质的安全

TOP

        加密备份数据
        控制数据恢复
        做好备份磁带标记

14、优化恢复时间
系统管理员必须平衡备份时间和恢复时间之间的关系
但是现有的绝大多数的备份技术会缩短备份时间而延长恢复时间

以下是缩短恢复时间的技术(有些技术会延长备份时间)
        仔细选择增量备份方案:例如一周一次全备,一天一次增备。较少的增量备份意味着较多的全备份和更长的备份时间。这个方案要求每个增备都落在不同的磁带上。
        易于获得备份磁带:自动寻带系统
        优化磁盘写速度:配置在线存储的最大化写速度。如果写操作基于操作系统,采用可优化性能的文件系统。
        优化磁带到磁盘的路径速度
        无论什么情况下,都要避免恢复的发生:数字统计看来,绝大多数的恢复是单个或几组文件的恢复,而不是文件系统的恢复。对文件系统的定期快照,可能不需要备份磁带就可以恢复被删除的文件,但是快照绝不能取代备份,备份依然是文件系统发生灾难或故障的必要方法。
        选择好高级的备份软件

TOP

三、分级存储管理和灾难恢复
1、减少备份窗口和恢复窗口,加快灾难恢复
备份窗口大小由需要备份的数据量和备份设备的速度共同决定,备份设备包括文件系统,在线存储系统,网络连接和备份设备。
        冷备,即在备份过程中应用程序不能使用数据,那么备份窗口至少是应用程序不可用的时间段。
        热备,即采用某种技术在瞬间某一个时间点冻结数据镜像,应用程序不可用,占用的窗口非常小,但是仍然存在。数据的可恢复性有一定的威胁,因为冻结镜像的备份拷贝并不完整。

优化成本和数据实现性之间的平衡关系,减少备份窗口的唯一方法就是减少备份的数据量。

减少数据量的方式:
减少数据量的一种有效的方法就是定期分析每一个在线文件,确定自最后一次访问之后,有多少时间没有访问这个文件。如果该文件很长时间没有访问,则将它转移到磁带这样的二级存储介质上,它所占有的在线存储空间将被释放,以做它用。如果某个程序需要该文件,就会从二级存储中取回该文件。这种方法会减少备份的数据量,同时减少在线磁盘空间需求。这种方法需要管理技巧和努力。
以上段落描述的是分级数据迁移和取回过程的自动化。

2、分级存储管理(HSM hierarchical storage management)
存储分级的特点:
分级存储管理中的存储技术具有成本和性能的不同层次,即存储技术的投入成本越高,所获得的带宽就越大,并且数据访问的等待时间就越短。

数据分为:
活跃数据:日常业务操作中频繁访问的数据
近期历史数据:访问频率相对较低,但仍然重要到应当保持在线的数据
存档数据:必须保留的数据,但只会在异常的情况下访问

分级存储管理的操作方式
        分级存储管理的“引擎”定期扫描文件系统编目,寻找符合系统管理员所定义的不活跃特征的文件。
        当找到这些文件后,分级管理引擎会:
        将这些文件拷贝到一个或多个二级存储,并且将这些位置记录在编目中
        做好这些文件所占用的可用在线存储空间的标记,如果需要用于其他的目的,则可以清除或释放所占用的空间
        修改用于描述文件已被迁移的目录条目
        分级存储管理“引擎”可以截取用活或应用程序对已移走的文件的任何访问,并使用编目找到这类文件,然后将它们透明的取到初始的在线位置。
现有的成熟的分级存储管理可用于UNIX和Windows平台,提供下列功能
  根据定义好的使用策略,自动透明地将在线数据从主要存储迁移到二级存储设备
当用户或者应用程序访问这类文件,自动,透明地取回这些文件
  收回很少被访问文件所占用的磁盘存储空间
  不需要备份被迁移文件的数据块,可缩短备份时间
  延迟恢复不活跃文件,可大大减少恢复时间

3、分级存储管理和文件访问性能
当应用程序需要访问某个文件时,从离线或近线存储取回该文件需要的时间,要比从在线存储设备直接访问该文件需要的时间更长。

分级存储的本质就是要平衡“把不活跃文件迁移出在线存储的好处”和“访问取回该文件的成本(时间的延迟)”二者之间的关系。

4、在线数据的活跃性
存在大量不活跃在线数据的原因:
        大量在线数据本身是只读数据(如财务报表)
        有些数据在线存储只是以防万一,只有发生特殊情况才会使用该数据
        由于法律和法规要求,有些文件必须容易读取
        有些数据在线只是为了进行信息服务故障恢复(数据库的存档日志)
        有些应用程序或者数据中心的使用资料非常多,但大量文件自从创建以来只用过一次或者使用率非常低
        最后是有一些遗忘的数据占用着磁盘

5、分级存储的优势
如果文件读取的重要事件能够确定,那么很少访问的文件就可以从定期全备份中剔除,这些文件的数据块也可以从在线存储上移走。

优势:这样的明显的好处就是可以减少备份窗口,无论对应用程序不可用时间的缩短或者对于危险中数据的减少都有好处。 同时还可以——缩短恢复时间。

对日常的运行具有其他好处:
        减少在线存储的需求
        减少文件系统的维护负担(读取频繁的大型文件系统必须经常进行碎片整理,以整合自由空间,集中已被目标数据占用的空间)
        降低离线存储的维护负担
        降低管理成本





6、分级存储管理技术的操作方式
文件系统记录目标文件的方式:
        商用的文件系统可记录用于描述所管理的目标文件属性的特定元数据
        元数据中具有文件最后一次被访问的时间(UNIX称为attime),文件每一次被打开,读取,写入,扩展,删减或其属性被修改时,文件系统都会自动更新该文件最后一次被访问得“时间戳记”。
分级存储管理的引擎的功能:
检查管理员所制定的文件系统每一个文件得最后一次的访问时间,并将管理员制定期限不被访问得不活跃文件迁移走,迁移包括:
        拷贝:文件到指定位置,通常是磁带
        更新:文件目录条目,以反映文件的双态(即文件在磁盘上可以被快速访问,需要文件系统自由空间得时候又可以被清除)
        收回:该文件占用的在线空间,提供给其他更活跃的文件。空间收回会有延迟,直到确实需要该空间,或者达到自由空间阀值

   所收回的数据迁移到离线存储,但该文件的元数据或者描述该文件存在的数据依然在线,应用程序和系统工作很容易访问它们,这使得分级存储管理的文件迁移功能对于应用程序是透明的。
   同时由于所迁移文件的元数据依然在线,改变元数据的很多管理操作都不会影响到被迁移文件。例如,将一个文件从一个目录移动另外一个目录,并不会去访问该文件的数据

   分级管理的最大优势在于,被迁移文件的访问功能对应用程序是完全透明的,对应用没有影响。

7、分级存储管理策略
存储管理员应该定义:
        不活跃时间
        文件大小
        系统文件,库和可执行镜像  
这类文件可能很长时间不会被访问,但它们无论如何都应当保持在线,因为这类文件通常是程序或教本文件执行时被访问,访问的响应时间非常关键,默认是不可迁移的
        制定任何文件排除嫌疑
        分组同类文件

8、分级存储管理优化
        分段:当不活跃文件被选择迁移时,它应当立刻被拷贝到离线存储,但该文件得在线拷贝没必要删除,直到需要它占用得空间以做它用。有些分级存储管理器可以分段,将该文件拷贝到二级存储,但仍然保持在线,直到在线自由空间达到阀值。分段也叫做双态。明显的好处在于,应用程序随时访问这些文件时可以立刻取回(当双态文件被修改时候,二级存储上的拷贝也必须立时失去效)
        文件分割:将每一个迁移文件(头字节)的切片保持在在线存储上,响应度提高
9、分级存储管理的实施特征
对于文件系统:
        必须能够读取文件元数据,以确定某个文件是否需要执行迁移策略
        修改元数据,以表明该文件已被迁移到近线存储或离线存储 ,而且一旦应用程序需要访问该文件的可以将该文件从二级存储位置取回。
和备份软件充分协作
        让分级存储管理能够从备份管理器的编目中确定被迁移目标文件的具体位置
        按分级存储管理的需要,备份扩展元数据
        全备份时跳过被迁移文件
        恢复时,保护被迁移文件的文件系统元数据与分级存储管理的数据库同步

10、利用备份和分级存储管理的灾难恢复
        分级存储管理会影响备份策略,首要而最明显的影响就是备份磁带不再包含完整的数据。备份磁带需要的越少,而不会丢失数据。
        一个有效的策略就是为被迁移的数据制作两份拷贝,分开放再两地。

11、采用分级存储管理增强灾难可恢复性的考虑因素
        文件系统分配设计:
        特定的文件可以分为应用程序,数据库,某个用户或用户群
        文件系统中组织数据文件所采用的标准通常从性能,连通性,服务水平协议或成本等方面来考虑
        分级存储管理目标数据位置的配置
        通过要定义的数据按照类型,性能,位置区分

        迁移参数的选择
     信息服务灾难恢复策略是在企业的经济承受能力和恢复的质量两者之间寻找平衡点。需要考虑的被迁移文件的数量和大小,取回被迁移文件的时间要求,以及取回要求的紧急程度

        分级存储管理目标数据位置的配置
     分级存储管理的安装设计可以通过仔细选择迁移目标位置来简化灾难恢复分级

        分级存储管理服务器的集群:
主动-主动  主动-被动   集群式分级存储管理系统

        需要长期保留数据的企业应当考虑离线存储的刷新和保存问题

TOP

四、保护离线的存储
1、可更换介质的存储设备
使用可以更换的磁带和光盘介质来保存使用率低且需要长期保存的数据,比使用磁盘存储更加可行
        不是所有的介质都像磁盘一样需要不间断的电源
        存储介质的成本要低于磁盘(单位字节成本)
        磁带的介质更加容易从磁带库中拿出
2、数据的安全性,完整性及保存
计算机数据的安全性定义:防止未经授权者篡改数字存储介质
计算机数据的完整性定义:可视为防止对数据的无意更改

3、自动化磁带库
自动化磁带库的定义:
        有一个或多个磁带驱动器或可移动磁盘驱动器
        有数量相对比较多的存放介质的存储槽位
        具有机械手装置,可以自动抓取介质

自动化磁带库的特点:
        介质导入/导出
        条码阅读器和清单管理
        正确的选择磁带库

TOP

五、保护在线数据
1、保护在线数据
在线数据面临以下几种威胁:
        系统故障:如果保存数据的磁盘遇到机械或电力故障,数据通常会遭到破坏。更细小的威胁包括可能导致数据毁坏的系统硬件和软件故障。这些故障可能在相当长的事情并不明显。
        应用程序故障:应用程序出错,很可能导致数据损坏,事后很长时间不被发现.
        人为错误:数据也可能被人为毁坏——误操作.
        站点故障:整个数据中心的瘫痪,即使整个数据没有被毁坏,但数据中心本身不可访问导致数据无法访问.

从保护或恢复数据的角度来看,以下两者存在重要差异
        数据的物理毁坏(保护):从商业角度来看,可以通过物理的方法纠正过来,使用镜像或复制到本地或远程拷贝技术,可以让数据免遭物理毁坏。
        数据的逻辑毁坏(恢复数据):是指数据在物理上完整无缺,但其逻辑关系遭到破坏。使用恢复和日志播放技术,能够将数据从逻辑破坏中恢复过来。这主要是因为镜像和复制技术盲目的再生应用数据,认为更新都是正确的。这些技术保护数据免遭系统故障和站点灾难,但是对于人为的误操作无能为力。

2、保护在线数据的技术
保护数据免遭硬件毁坏
        磁盘子系统:RAID子系统
        基于服务器的卷管理器:类似与软件的RAID
        基于SAN的存储整合器:结合了磁盘子系统(对于服务器是透明的)和基于服务器的卷管理器(整合了磁盘子系统)

在线数据保护技术
        时间点拷贝:该技术可以捕捉重要数据在某一个时间点的状态并将它发送到一个或更多的恢复站点存储。比如离线存储的磁带备份。
        实时拷贝:该技术可在一个或多个远程站点维护在线数据拷贝几乎现时拷贝  (如 srdf)

数据复制
        数据保护技术——在远程站点(灾难恢复站点)生成在线数据的副本
        如果灾难使数据中心瘫痪,不受灾难影响的数据副本可以访问。应用程序在该站点启动,以处理数据副本,数据副本变成了企业的真正数据
        当然一个企业的在线数据之所以有用,是因为它的更新反映了企业的真正数据

为什么不镜像??
        距离和响应时间     (BCV在一个存储设备中保留2分数据)
        如果在线数据拷贝到多个广范围的存储设备可以像本地设备上更新一样快速,那么复制技术就没有存在的必要了。
物理定律:t=s/v 即使是光速,距离太长肯定有延迟的,复制技术已经能够减少距离复制数据更新对应用相应的影响。
网络定律:长距离比短距离的可预知性和可靠性低
     在多个路由器之间跳跃,在数据源到目的,多链路导致延迟,更严重的是宕机

3、要复制什么
卷:
        卷是一种逻辑概念,其属性类似于磁盘的属性。卷很少被应用程序直接访问。卷通常被文件系统和数据库管理器访问,为了便于用户和应用程序访问,通过卷形式来组织存储在磁盘上的数据。如果卷被复制,那么分配在它上面的数据库或文件系统也会被自动复制。
        卷复制的弱点:因为没有使用的卷级应用数据定义,不能够单独拷贝一些文件。而且卷级没有可以使用的关于数据含义的信息。因此当复制发生时,就很难使用卷的副本。

文件:
在一个或多个目标站点的文件系统中,文件复制发生了文件或目录的变化。文件复制可以在文件级数据语义上简化复制操作。
例如删除很多文件的目录会引发磁盘大的I/O
        文件可以限制重要的目录和重要的文件

数据库:
        大多数数据库软件都包含某种性质的目标数据库的复制。数据库复制包括程序复制和数据库更新复制。
        程序复制将引起数据库更新的应用程序拷贝发送到复制的目的地。数百字节可以更新数以千记的更新。
        数据库更新复制和程序复制类似,只不过复制的是数据库的更新日志

数据复制的执行位置
        磁盘子系统:两个或多个磁盘子系统内部的控制处理器共同协作,将数据从一个主子系统复制到一个或多个子系统。SRDF就是最好的例子。
        服务器软件:这种执行在服务器的I/O堆栈中占据一个位置。复制软件(golden gate)
        SAN组件:复制软件运行在SAN组件的设备上
复制必须在三者选择一个

4、灾难和在线数据保护
灾难分为:可预见灾难、延续性灾难、突发性灾难
突发性灾难是一种后果出现无法察觉的毁坏

        发生突发性灾难时数据保护的基本要求是:
能够冻结不同的时间点的数据副本,这样恢复至少可以到灾难之前的最近的那个时间点。生成数据时间冻结镜像的功能是区别复制技术和本地镜像的另一个因素.

5、复制技术要求
        写排序:数据管理器(文件系统和数据库管理器)和应用程序使用复杂的内部数据结构来组织和管理用户数据,包括数据库索引,文件目录,更新日志等。通过认真排序磁盘来写操作来保护这些结构的完整性。这样如果需要,一个正确的文件系统或数据库能够只根据磁盘内容进行重建。
数据写入副本与写入主存储的顺序和时间必须完全相同  

        一致性卷组:例如数据库的索引和列表和日志可以位于不同的卷上,但是导致索引扩展的表的更新必须首先写入日志条目,然后是数据,再后是索引条目。

从数据库管理器的角度来看,它们必须按照正确的顺序执行,以便包含有效日志条目的副本可以恢复数据库。必须将单个条目的卷组视为一致性卷组,当灾难发生的时候,一致性卷组的所有卷同时冻结,这样的复制的数据镜像便具有宕机一致性。宕机一致性是写排序的主要结果。

6、复制和数据现时性
同步复制:同步复制不运行完成应用写操作,直到所有副本都被写入。复制器可以截获应用写请求,并将写请求发送到所有复制站点。对于磁盘子系统的复制,在应用请求完成被显示之前,主子系统会将数据直接传输到二级子系统。主子系统和二级子系统的I/O一般可以交叠,以最小化应用延迟。
主中心的应用程序更新都要分中心的确认写操作完成才算同步(即时的一致性)

异步复制:非同步复制将应用写操作从复制写操作种分离开来。一旦接受传输到的写操作,非同步复制解决方案就可以立即完成写操作。支持距离无限制的复制。
更新允许一定程度的滞后再进行写操作

同步复制可使次拷贝与主拷贝保持一致,但会增加I/O服务时间
异步复制可以最小化对I/O服务时间的影响,因此可以于跨越任何距离的数据复制。但必须做好次拷贝比主拷贝落后造成的某种程度的数据丢失的准备。

7、数据复制执行
基于服务器的复制
服务器故障和网络宕机都会中止复制。
同步复制,复制失败。
异步复制,主复制器可以尽可能长的继续记录写操作,
基于基础设施的复制
存储设备或智能交换机中执行

两者的区别:在复制的角度来看,存储设备的和智能交换机之间唯一的不同是前者是一台服务器,一般运行传统的操作系统内核,而后者则是一种专用的硬件设备,通常运行定制程度高的内核。

8、复制开始
在复制刚刚开始,或者发生严重的宕机使复制中断,次站点的数据必须与主站点的数据同步。作出的同步取决以于要复制或要恢复的数据量。

        快照:对主节点进行快照,主数据备份被传输到次站点进行恢复,以初始化次副本。这种方法使用中小数据库。

        变化映射:通过主节点变化过程中,更新的数据库记录在数据变化图中。数据变化图与日志不同之处在于前者的大小固定,不能被填满。
使用数据变化图不能保持写排序,因此从主站点到次站点不是拷贝而是初始化。

        差异复制:中断后,分析主次服务器的数据块,通常采用特殊校检码进行比较。当检测到差异时,数据便从主服务器拷贝到次服务器。

9、选择在线数据保护策略
        评估威胁
        找到需求:
        数据现时性(企业可以接受多少数据的丢失)
        可接受的宕机时间

10、限制在线数据保护的因素
受到的限制
        恢复站点的特性
        通讯设施
        管理技术

选择指南
        评估信息服务宕机成本
        保守的评估停机成本
        考虑间接成本
        规章惩罚方面的因素
        考虑其他规章影响

TOP

六、存储网络与灾难恢复
1、存储网络:数据访问的基础设施
        存储互连:存储互连是指计算机I/O总线和存储设备之间的物理连接,用来实现计算机与存储设备的数据交换。

每一个SCSI设备都有一个ID号(总线地址),scsi启动器是发出读写命令的设备,scsi启动器通常由运行在名为HBA模块上的ASIC充当。
SCSI的目标设备是存储数据响应读写命令的磁盘或磁带机。SCSI互连的设备不能超过16个,限制了SCSI存储网络的大小。
ISCSI,使用网关和路由器,使得SCSI设备可以用于大型的存储网络。
InfiniBand是一个新兴互连,将取代PCI总线,支持高于2Gbit/s数据传输速率,并能够为集群,分布式文件系统,锁定管理提供低延时的计算机互连。

        存储网络互连(存储网络)带来的好处:
              存储从服务器分离出来
                  提高服务器的弹性
                  更大型的灵活的集群
                  共享存储资源
                  存储(和服务器整合)
                  更快速(独立于LAN)备份和恢复
                  服务器和存储设备更加独立
                  更高的系统I/O性能
                  简化管理
                  降低总投资成本(TCO)
   
        注解        性能        距离        拓扑结构
并行scsi        短距离最多支持16个设备互连        20-160MB/S+        <27米
        总线
Iscsi        Scsi3命令集用于TCP/IP的高层协议,将SCSI命令和数据映射倒TCP/IP数据包        取决于网络性能        受限于应用        适用与TCP/IP网络拓扑结构
光纤通道        ANSI标准协议支持灵活的多种拓扑结构和多种高层协议,包括scsi,tcp/ip,FICON和VI
        100MB/S和100MB/S全双工和半双工        10km,(使用长波光纤高速缓存可延长到100公里)        点对点
仲裁环路
交换式结构

2、数据块和文件访问
运行在服务器上的应用通常使用数据块访问或文件级访问协议来读写数据。
如果组织数据以应用的文件系统或数据库管理运行在应用程序服务器上,文件系统或数据库会使用SCSI或FCP(光纤信道协议),向存储设备发送数据库I/O命令。
如果文件系统运行在存储设备上,在应用程序服务器的文件访问客户端使用CIFS或NFS协议向存储设备发出I/O命令。这种情况的存储称为文件服务器或NAS,它使用数据块I/O命令来访问与之相连的设备。

光纤信道:2GB/s的存储网络互连;光纤信道ASIC可以自动调节
点对点:光纤信道仲裁环路(FA-AL) 交换式的结构

3、主机总线适配器和存储设备
将服务器连接基于ip的存储网络的设备叫做存储网络接口卡(SNIC)。HBA和SNIC将服务器内部I/O总线(如pci或sbus)连接到网络。大多数HBA卡支持SCSI,FICON,TCP/IP和vi多种协议。

HBA模式的区别主要有:
        上层协议的支持
        SAN的拓扑支持
        OS的支持
        每个适配器的端口数量
        无论介质和端口速度

线缆和连接器
通常使用62.5和50微米的多模光纤(MMF)和9微米的单模光纤(SMF),SC和ST用于1G设备的连接,SFP用于2G设备的连接。
基础设施
光纤交换机,ISL(交换机链路)

4、设计弹性存储网络
        存储网络拓扑结构:点对点,环形拓扑,,结构式存储网络拓扑(使用光纤交换机)
        正扇形结构和倒扇形结构:允许服务器集群访问相同的存储
        存储网络设计需要考虑的因素:
                需要访问类型
                服务器的数量和类型
                服务器和存储设备的物理位置
                服务器OS及版本‘
                每天服务器上的HBA的数量和类型
                每台服务器上的磁带或存储路径
                卷管理工具
                路径管理工具
                应用类型
                应用隔离要求
                应用服务器的位置
                   服务器集群
                   性能要求
                服务水平协议
                网络增长计划
                存储和磁带设备选择
                数据访问模式
                备份和数据保留策略
                距离要求
                协议要求
                非结构化设备的沿用
                设备共享要求
5、SAN的性能
位置和本地安全性对弹性的影响
本地性是指结构中的互连存储设备和连接到同一台交换机的服务器所占的百分率。单台交换机的结构具有100%本地性,而多台的本地性相对要低的多。本地性高的存储网络,其性能最好
6、分区和SAN安全
Zone的划分:存储网络设备将设备组织到不同的分区,使服务器,HBA和存储设备相互隔离,从而实现存储网络的安全性。
7、异构存储网络
        SAN的互操作性的发展
           SAN的管理
           巩固存储网络,加快恢复
8、存储网络应用
        备份:将备份I/O从在企业局域网转移到光纤信道存储网络
        高可用性集群和弹性系统:配置冗余路径,交换机和HBA卡
9、广域存储网络
   光纤信道连接距离超过10公里,使用长波GBIC
DWDM城城光纤网络:把光纤通道存储网络的连接扩展到10公里以外的另一种技术是密集波分多路复用(DWDM)

10、管理存储网络
SAN管理工具:
        组件管理器:可以用于配置,监控,诊断,和操作单个存储网络组件。组件管理器应由该组件的厂商提供。
        存储网络结构:这些工具可以执行分区,报告,监控和其他网络任务
        数据管理工具:包括卷管理器和其他虚拟化备份,恢复,分级存储管理器

前2种功能,ECC都可以做到,后者就属于备份软件和卷管理器了。

11、存储网络技术的最新发展
        光纤信道技术的改进
        Infiniaband  服务器I/O总线
        ISCSI   运行在TCP/IP的ULP
        FCIP  远距离存储网络技术
        IFCP  另外一种远距离存储网络技术
12、存储网络的使用技巧和最佳办法
        设计指南:
        设计要满足企业需求
        规划的增张
        规划的变动(更改)
        逐渐迁移
        可用性指南:
        冗余和容错配置
        只在需要的地方互连SAN
        SAN冗余规划包括电源冗余
        功能和性能指南:
        强调组件必须经过公认的互操作性的测试(SAN mask认证)
        配置组件自动检测
        操作指南:
        文档:建立安装,配置,文档(实时更新)
        加强安全:使用分区和LUN屏蔽限制对端口、LUN和存储设备的访问
        性能配置:通过监控存储网络的性能来限制结构化网络拥塞的机率
        测试所有弹性因素:测试SAN正常负载和极度负载,注重测试灾难恢复程序及其维护功能

TOP

七、数据文件的灾难防护
1、文件系统的本质
数据文件开发的最初的目的只是为应用程序组织数据,但现在文件以及可以用于所有计算机系统的非挥发性存储,包括操作系统程序,可执行功能的共用数据库,事件日志和操作参数,以及应用程序使用的数据对象。文件被组织在存储设备上,文件访问也通过名为文件系统的计算机程序套件进行管理。

操作系统需要文件来确定:
      当系统加载到内存总并开始运行后,操作系统需要文件来确定
        那些模块需要加载到内存运行
        启动那种运行模式(如图形或者文本模式,是否有网络服务等)

      当系统正运行时,文件系统需要继续用于:
        保存加密凭据,以确定那些用户和远程计算机等陆有效
        保存不活动应用程序镜像
        保留程序中运行因“分页”或“交换”而暂停的部分
        记录异常事件,以便分析和解决问题
        记录“正常”时间,如用户登录和文件访问企图,以便进行安全审核

     一旦程序开始运行,它将轮流使用文件,包括用于以下目的
        保存操作模式定义的配置参数
        记录运行过程中发生的事件
        保存多个应用程序共享的常用功能数据库
        保存应用程序处理的数据
            
2、文件系统具有那些功能
作为一个抽象的存储设备使得应用程序处理数据流方便的多:
        可以改变大小
        无需人工介入就能自由地创建和删除,并且开销很小
        使应用程序能够很容易识别和定位共享同一裸设备的物理和逻辑的存储池的数百万的数据流
        能够限制特定应用程序或用户访问
文件系统能够组织磁盘和卷输出的已编号数据库组成的数据流,并为用户提供以下功能:
        分层命名方案能够识别和定位任意数据量的文件,使得文件命名可以很容易识别
        访问控制防止未授权用户访问文件
        磁盘限额(邮箱大小的限制)
        一套操作允许应用程序和用户使用全部数据流(如创建,删除,扩展,删减和更改所有权)或数据存储空间(如读取或写)
        数据访问模式允许一个应用程序把一个文件当作唯一的数据流

3、文件系统数据的组织
        一个ROOT,或者是文件开始搜索的固定起始点。根是最高级目录,下面是子目录,树状结构。
        如果文件管理是文件大小和数量都不断变化的单个存储池,则必须将存储池未分配空间的记录保存到一个文件。
        一个典型的文件系统既要管理自由存储空间,还要在文件创建和扩展操作需要时从中移走数据块,并且还要在文件迁出或删减时把移走的数据块返回该文件。

4、文件系统的数据分配
        文件系统通常把它们所占用的空间管理分为分配单元,或文件系统,每一个分配单元或文件系统块都由连续的磁盘或卷块组成。
        如UNIX中,使用inode的磁盘数据结构来描述文件,说明那些磁盘或卷块被文件系统占用的描述符。
        其中有一个映射关系:文件数据地址map磁盘或卷块(扇区)地址。

5、文件系统的运行方式
        文件系统会强制将它所管理的组成磁盘或卷的数据块逻辑结构化。
        它们使用磁盘或卷的部分容量来保存被组织在该磁盘户卷的文件的信息(名称,访问权限和其他属性),以及文件的数据在磁盘或卷的位置,这种描述信息叫元数据(metadata)
6、文件系统和数据完整性
文件系统的结构组织
        文件系统用于组织和管理计算机系统使用的虚拟类型的持久性数据  
        文件系统使用磁盘或卷的部分空间来保存描述数据文件的位置和属性的数据结构(元数据)

计算机系统的功能完全依赖于文件系统的功能,如果元数据发生错误:
        用户和应用程序可以访问未授权的文件
        数据会从文件中丢失,或是把未分配空际的随即内存当文件数据
        整个文件“消失”不能找到,即使其内容在磁盘存储上完整无缺
        存储块会分配给两个或多个文件,这将对应用程序产生严重后果


7、文件系统创建文件的过程
   在反映维持元数据的完整性过程中,文件系统必须进行许多原子性(及其微小)I/O序列操作,该操作是指所有操作中的某个动作必须纠正总体系统操作。

例如文件系统把空间分配给一个新建文件,那它必须从自由存储中移开元数据和数据块。这就需要更新文件系统自由空间的元数据,指明已分配的块不再是空的(记录分配空间)
        利用元数据和文件数据,建立新的文件的数据块,并把它们写入磁盘存储(创建数据块)。
        将新文件的元数据连接到它的目录结构中,以便该文件可以被用户和应用程序找到。这个过程需要读取和写入目录元数据(归档)。

8、文件系统数据完整性的问题
事实上文件系统的元数据相当复杂,使元数据的原子性I/O序列操作作为内在需求,对于文件系统管理数据的完整性也许是一个巨大的挑战。
        系统在任何时候都有可能崩溃,包括在执行文件系统元数据更新的序列操作的时候,这些崩溃会使的文件系统的磁盘元数据部分更新,留下故障隐患。

9、保持文件系统元数据完整性的技术
元数据冗余:
保存多份元数据,这样做有两个原因。
        一是数据完整性,如果数据文件元数据损坏,文件系统通常会重建它。
        二是或者使用不同形式的元数据在不同位置执行操作。
仔细写入:
现代文件系统设计的非常仔细,每一次的元数据更新都会保留磁盘结构状态,一旦发生系统崩溃活更新中断,只会造成很小的机构破坏。文件系统具有一定的容错性。

10、文件系统恢复技术
        UNIX系统中“文件系统检查器”或fsck的系统效用程序,该程序在系统崩溃后执行检测和修复功能。
        在Windows中使用CHKDSK。

   修复会使用元数据冗余来恢复整个文件系统元数据的完整性。但是某些情况(如文件系统在元数据的序列操作完成之前崩溃)就无法恢复。

11、缓存:元数据完整性的另一个问题
        数据组织会造成文件系统的额外开销,主要表现为I/O请求,要保证写入正确,这些I/O请求必须按顺序排列(即不允许同时进行)。
        为了最小化这种影响,文件系统会将数据缓存起来,在从用户和应用程序看来已经生效后,再缓慢会将更新写入数据。这样可以大大改善系统性能。

12、日志:加快恢复和提高完整性
        某些文件系统采用折中策略,通过日志的方式,在文件系统结构实际更新之前写入永久性存储。
        在任何一个时间点,文件系统日志实际上都是一个显示器,显示系统崩溃时那些元数据可能破坏。(实时的记录元数据的变化)
        在恢复的过程中,通过重放日志的方式检查那些数据需要修复元数据。                                                                                    

13、在线管理-提高可用性
造成碎片的原因:
        文件系统被应用程序所使用,因此在文件系统的存储空间会分成碎片,从而导致存储空间的低效分配和浪费。
        文件系统和数据库的增长超过了磁盘容量,就需要对其进行数据转移。
        为了平衡I/O负载,防止设备故障影响或因为其他管理原因,数据必须移位到不同设备
        业务原因,数据迁移

在应用程序进行时,文件会被创建,修改,和删除,存储空间就会被不断的分配和释放。时间一长,一个磁盘或卷上的文件就、目录和未分配存储空间就会变成碎片。

14、文件系统的特殊功能
移动使用中的文件
可以进一步增强数据的可管理性,对扩展,移位或重新配置操作数据都非常有用
在线扩容

TOP

 12 12
发新话题