[转帖]存储也分三六九等
存储也分三六九等
————用分级存储实现投资保护
根据“二八”和“三七”原则将存储内容进行分级,并存放在不同的存储介质上,可以帮助企业用户节约设备成本。
任何事情都从简单逐渐变复杂,然后又回归到简单。数据存储的发展也是这样。
因为,对于用户来说,数据每天都在发生变化,尤其是数据容量每天都在不断增长。随着业务的正常运营和各种资料的不断积累,数据容量的增长使得存储系统随时都可能面临空间不够的问题。但如果只是因为容量不够而一味地单纯扩充容量,是很不明智的。因为,首先,扩充容量带来的必然是需要采购新的存储硬件产品,其直接的影响就是投资,如果用户不对自己的数据进行有效的规划和整理的话,这带来的将是无限制的投资浪费。
存储的二八原则
为了解决这个问题,我们不得不提到存储的二八原则。据相关调查和经验数据表明,在磁盘阵列上存储的数据的20%是用户需要经常读取的,而有80%的数据是不太经常需要,甚至不读取的。那也就是说,对于这20%的数据,用户需要能很快并很直接地访问到,而对于其余80%的数据,如果在需要时,能保证数据可用就行了,对速度的要求不会太高。那么,我们是不是可以把这些不同级别的数据分别存储呢?可以!这就是分级存储的原型(Hierarchical Storage Management,HSM)。
从存储容量不断增长,导致对如何有效扩充容量的考虑,到提出一种分层次的管理方式来解决,实际上就是从简单,到复杂,再到简单的过程。HSM是一种经济而且有效地利用存储设备的管理方式。HSM对用户是透明的,也就是说用户并不知道这种管理过程的存在。在很多情况下,它更多地用于分布式网络环境中。分级,其实就是意味着用不同的介质来实现存储,如RAID系统、光存储设备、磁带等,每种存储设备都有其不同的物理特性和不同的价格。例如,要备份的时候,备份文件一般存储在速度相对比较慢、容量相对比较大、价格相对比较低的存储设备上如磁带,这样做很经济实用。
很多HSM的相关软件产品都能帮助用户进行数据迁移和管理的工作,管理员只需要规定一个规则,然后这个软件可以自动进行相关的工作。不经常使用的文件会被自动地转存在价格和速度都比较低,但容量很大的设备上。如果需要,文件可以透明地恢复到在线存储设备上,对于这些过程,用户是不知道的。
对于用户来说,由于HSM可确保只有最常用的信息才永久保持在线,从而能提高关键数据的可用性;此外,不经常需要的数据可自动地从在线设备转移,从而降低对高成本的磁盘阵列的需求,一旦用户或应用程序需要,被转移的数据就能自动调入到基本在线存储设备;通过减少磁盘中数据的数量,HSM可改善系统备份性能,释放磁盘空间供应用程序使用;此外,HSM是专门针对客户 / 服务器环境设计的,能提供满足企业在混合平台上存储管理要求的灵活性,并提供有助于管理的集中管理功能。
如何分级
从原理上来讲,分级存储是从在线系统上迁移数据的一种方法。文件由HSM系统选择进行迁移,然后被拷贝到HSM介质上。当文件被正确拷贝后,一个和原文件相同名字的标志文件被创建,但它只占用比原文件小得多的磁盘空间。以后,当用户访问这个标志文件时,HSM系统能将原始文件从正确的介质上恢复过来。
根据用户需求不同,分级存储也可以有不同的实施方式。一般来讲,主要有三个层次和两个层次这两类分级存储的方式。
三个层次的存储架构是比较完整的分级存储架构,它由承担在线存储的磁盘阵列、近线存储的光盘库和离线存储的磁带库三部分来组成。在制订存储策略时,一般是根据存储的二八原则,把20%的常用数据存放在磁盘阵列上,然后把80%数据存放在光盘库中,磁带库一方面可以完成数据备份的工作,另一方面,如果用户需要节省光盘库成本时,也能把光盘库上的数据的一部分存放在磁带设备上,此时,一般采用三七原则。也就是说,30%的常用数据存放在光盘库上,70%的不常用数据转移到磁带介质上。如果用户需要访问那70%数据时,数据会从磁带库读到磁盘阵列以供用户访问。
此外,用户也可以采用二级存储,这种方式更节省成本,也就是说除了磁盘阵列作为在线存储之外,只选择光盘库或者磁带库中的一种作为近线存储。
从其实现的管理功能来看,HSM不仅仅适用于海量数据的存储备份,当一般用户希望能有效地管理数据,并节约存储硬件设备的投资时,都可以考虑分级存储的方式,因为不同介质的存储成本是有很大区别的(见表)。
几种介质容量和价格的比较 介质
容量/mb 价格/usd 单位价格
ide硬盘 1000 150 0.15
数据流磁带 2000 60 0.03
可写cd 680 4 0.00589
压制cd 680 1 0.0015
案例一:报社
存储可以分两级
某报社,记者每天收集大量的新图片保存在服务器中。但是,由于图片文件占有空间比较大,每天不断地积累,使得服务器本身的磁盘空间已经完全不能满足存储需求。是需要单独增加一个磁盘阵列吗?当然,这种方式也可以很快增加联机的存储量,但是,其缺点在于对硬件的投资大。那么,直接备份到磁带上去呢?这种投资要小得多,可是,其访问速度比较慢,对于需要高效运作的媒体来说,也不是一个好方法。
不妨分析一下报社对存储的应用特点。其实,图片文件虽然占用空间比较多,但其保存后几乎就不需要改动,而也只是在文件保存到服务器的头几天,浏览的频率比较高而已。并且,每个记者摄下的图片可能只有很少的一部分能用得上,但所有的图片都必须作为资料,保存下来,以备不时之需。
二级存储系统结构图
其实,可以采用二级存储的方式来解决这个问题。比如,采用Legato的NetWorker HSM,硬件采用光盘库作为脱机的存储设备(见图)。文件的迁移和读回是完全与NetWorker备份和恢复操作结合的,不会影响现有的存储管理的应用。用户可以把每天的图片文件分到不同的组,为每个组设置不同的文件迁移时间。这样,不常用的图片在很短的时间内就会迁移到光盘库上,在一定的时间内,所有的图片都会迁移到光盘库上。同时,采用光盘存储,还能方便介质的移动和长期保存。
案例二:医院
实施三级存储
在医疗行业中,医院需要永久保存的信息越来越多,此外,极其占据存储空间的病人CT等影像系统也逐渐向有序管理的方向发展,因此,对于医院数据存储容量不断增长的需求,如果单纯采用磁盘阵列作为单一存储设备,一方面成本非常高,容量固定且有限;另一方面,又易于受到病毒等的攻击,不利用数据保存。所以,也可以考虑分级存储。
同时,存储的各种数据作为病人看病治疗的依据,医院有责任为用户保证数据的更高可用性,所以,还可以利用分级存储中的磁带库来完成备份功能。
三级存储系统结构图
在这个案例中,我们可以采用惠普提供的磁盘阵列、光盘库、磁带库等硬件产品,并加上HP OpenView Omniback存储管理软件来实现高效、低成本的三级存储。
对最终用户来说,整个系统是透明的,如系统硬盘为20GB,光盘库/磁带库容量为2000GB,那么,用户可以访问的总空间为2020GB;通过软件设置,系统按照用户所定义的时间、权限和优先级等自动地实现迁移。在整个系统中,根据用户的需要不同,磁带库可以扮演两个角色。在光盘库容量不够时,磁带库作为第三级存储设备,将访问频率更低的文件迁移到更廉价的介质上,同时,磁带库也可以作为备份设备,定期将磁盘阵列和光盘库上的数据进行备份,当然,如果需要备份的话,用户还需要为磁带库单独配置一个备份服务器。