发新话题
打印

NETAPP技术学习全程记录

本主题由 awu 于 2008-10-12 15:31 设置高亮
呵呵,踢场子好,我真喜欢有人踢我的场子,如果都来说客套话,那有意思么?来了就要fight一场。忠言逆耳,良药苦口,我喜欢。

拔盘做迁移,兄弟你真说对了,netapp就是不怕你拔盘,随便你怎么弄吧,机器自身互相换,或者插到别的机器,照样挂上,只要成员磁盘都齐全,fsid不冲突(冲突了可以rewrite,没啥),就能挂。这全归功于ONTAP完全屏蔽了硬件架构的不同和磁盘上的raid label。
敝人博客
《大话存储》购买:当当,互动,淘宝,卓越,自行搜索。

TOP

这个实验有点麻烦,在模拟器下迁移到另一个模拟器看来是不行

查出myforaggr实际使用了哪些disks.在建立的时候没有指定盘,是由系统自己挑选的。也不晓得有什么规律。

Aggregate myforaggr (online, raid4) (block checksums)
  Plex /myforaggr/plex0 (online, normal, active)
    RAID group /myforaggr/plex0/rg0 (normal)

      RAID Disk Device  HA  SHELF BAY CHAN Pool Type  RPM  Used (MB/blks)    Phys (MB/blks)
      --------- ------  ------------- ---- ---- ---- ----- --------------    --------------
      parity    v4.34   v4    2   2   FC:B   -  FCAL  N/A  120/246784        126/259200
      data      v4.22   v4    1   6   FC:B   -  FCAL  N/A  120/246784        126/259200
      data      v0.35   v0    2   3   FC:A   -  FCAL  N/A  120/246784        126/259200
在linux系统的/sim/,disks下面找到这几个盘的模拟文件

[root@DOT ,disks]# pwd
/sim/,disks
[root@DOT ,disks]# ls
,pulled                                          v0.29:NETAPP__:VD-100MB-FZ-520_:89570513:259200
,reservations                                    v0.32:NETAPP__:VD-100MB-FZ-520_:89570514:259200
ShelfiskShelf14                                v0.33:NETAPP__:VD-100MB-FZ-520_:89570515:259200
v0.16:NETAPP__:VD-100MB-FZ-520_:72355100:259200  v0.34:NETAPP__:VD-100MB-FZ-520_:89570516:259200
v0.17:NETAPP__:VD-100MB-FZ-520_:72355101:259200  v0.35:NETAPP__:VD-100MB-FZ-520_:89570517:259200
v0.18:NETAPP__:VD-100MB-FZ-520_:72355102:259200  v0.36:NETAPP__:VD-100MB-FZ-520_:89570518:259200
v0.19:NETAPP__:VD-100MB-FZ-520_:89570503:259200  v0.37:NETAPP__:VD-100MB-FZ-520_:89570619:259200
v0.20:NETAPP__:VD-100MB-FZ-520_:89570504:259200  v0.38:NETAPP__:VD-100MB-FZ-520_:89570620:259200
v0.21:NETAPP__:VD-100MB-FZ-520_:89570505:259200  v0.39:NETAPP__:VD-100MB-FZ-520_:89570621:259200
v0.22:NETAPP__:VD-100MB-FZ-520_:89570506:259200  v0.40:NETAPP__:VD-100MB-FZ-520_:89570622:259200
v0.23:NETAPP__:VD-100MB-FZ-520_:89570507:259200  v0.41:NETAPP__:VD-100MB-FZ-520_:89570623:259200
v0.24:NETAPP__:VD-100MB-FZ-520_:89570508:259200  v0.42:NETAPP__:VD-100MB-FZ-520_:89570624:259200
v0.25:NETAPP__:VD-100MB-FZ-520_:89570509:259200  v0.43:NETAPP__:VD-100MB-FZ-520_:89570625:259200
v0.26:NETAPP__:VD-100MB-FZ-520_:89570510:259200  v0.44:NETAPP__:VD-100MB-FZ-520_:89570626:259200
v0.27:NETAPP__:VD-100MB-FZ-520_:89570511:259200  v0.45:NETAPP__:VD-100MB-FZ-520_:89570627:259200
v0.28:NETAPP__:VD-100MB-FZ-520_:89570512:259200

用tar cvf 打包这几个文件,发现不行诶。硬盘开始狂转了,这几个文件应该是有些东东值得研究下。可能只能是把这几个盘覆盖另外几个试试了。用mv把v22,v34,v35覆盖到v43,v44,v45,启动系统

[root@DOT sim]# ./runsim.sh
runsim.sh script version Script version 19 (24/Nov/2005)
This session is logged in /sim/sessionlogs/log
Old style simulator disk name ,disks/disk.tar found. Ignoring ...

PANIC: Can't find device with WWN 0x2304181510. Remove ',disks/,reservations' and restart.
version: Data ONTAP Release 7.2.1P1: Thu Jan  4 02:52:47 PST 2007 (IBM)
cc flags: L
dumpcore: Can't find device with WWN 0x2304181510. Remove ',disks/,reservations' and restart.

删掉
,disks/,reservations系统可以启动。不知道这个WWN是哪里来的。

再查询aggr的信息
Aggregate myforaggr (online, raid4) (block checksums)
  Plex /myforaggr/plex0 (online, normal, active)
    RAID group /myforaggr/plex0/rg0 (normal)

      RAID Disk Device  HA  SHELF BAY CHAN Pool Type  RPM  Used (MB/blks)    Phys (MB/blks)
      --------- ------  ------------- ---- ---- ---- ----- --------------    --------------
      parity    v4.44   v4    2   12  FC:B   -  FCAL  N/A  120/246784        126/259200
      data      v4.43   v4    2   11  FC:B   -  FCAL  N/A  120/246784        126/259200
      data      v4.45   v4    2   13  FC:B   -  FCAL  N/A  120/246784        126/259200

R2*> aggr read_fsid myforaggr
Aggregate myforaggr has an FSID of 0x48da97cb.





[ 本帖最后由 ender 于 2008-6-29 21:15 编辑 ]

TOP

顺便做的一个RAID4拔盘的实验

R2*> disk simpull v4.20
R2*> Sun Mar 23 01:43:26 EDT [raid.disk.missing:info]: Disk /myforaggr/plex0/rg0/v4.20 Shelf 1 Bay 4 [NETAPP   VD-100MB-FZ-520  0042] S/N [89570504] is missing from the system
Sun Mar 23 01:43:26 EDT [raid.config.filesystem.disk.missing:info]: File system Disk /myforaggr/plex0/rg0/v4.20 Shelf 1 Bay 4 [NETAPP   VD-100MB-FZ-520  0042] S/N [89570504] is missing.
Sun Mar 23 01:43:26 EDT [raid.rg.recons.missing:notice]: RAID group /myforaggr/plex0/rg0 is missing 1 disk(s).
Sun Mar 23 01:43:26 EDT [raid.rg.recons.info:notice]: Spare disk v4.21 will be used to reconstruct one missing disk in RAID group /myforaggr/plex0/rg0.
Sun Mar 23 01:43:26 EDT [raid.rg.recons.start:notice]: /myforaggr/plex0/rg0: starting reconstruction, using disk v4.21
Sun Mar 23 01:43:27 EDT [ses.channel.rescanInitiated:info]: Initiating rescan on channel v0
Sun Mar 23 01:43:27 EDT [ses.channel.rescanInitiated:info]: Initiating rescan on channel v4

R2*> aggr status
           Aggr State      Status            Options
          aggr0 online     raid0, aggr       root
      myforaggr online     raid4, aggr      
                           reconstruct      
R2*> aggr status -r
Aggregate aggr0 (online, raid0) (block checksums)
  Plex /aggr0/plex0 (online, normal, active)
    RAID group /aggr0/plex0/rg0 (normal)

      RAID Disk Device  HA  SHELF BAY CHAN Pool Type  RPM  Used (MB/blks)    Phys (MB/blks)
      --------- ------  ------------- ---- ---- ---- ----- --------------    --------------
      data      v4.16   v4    1   0   FC:B   -  FCAL  N/A  120/246784        126/259200
      data      v0.17   v0    1   1   FC:A   -  FCAL  N/A  120/246784        126/259200
      data      v0.18   v0    1   2   FC:A   -  FCAL  N/A  120/246784        126/259200
      data      v4.32   v4    2   0   FC:B   -  FCAL  N/A  120/246784        126/259200

Aggregate myforaggr (online, raid4, reconstruct) (block checksums)
  Plex /myforaggr/plex0 (online, normal, active)
    RAID group /myforaggr/plex0/rg0 (reconstruction 64% completed)

      RAID Disk Device  HA  SHELF BAY CHAN Pool Type  RPM  Used (MB/blks)    Phys (MB/blks)
      --------- ------  ------------- ---- ---- ---- ----- --------------    --------------
      parity    v4.34   v4    2   2   FC:B   -  FCAL  N/A  120/246784        126/259200
      data      v0.21   v0    1   5   FC:A   -  FCAL  N/A  120/246784        126/259200 (reconstruction 64% completed)
      data      v0.35   v0    2   3   FC:A   -  FCAL  N/A  120/246784        126/259200


Spare disks

RAID Disk       Device  HA  SHELF BAY CHAN Pool Type  RPM  Used (MB/blks)    Phys (MB/blks)
---------       ------  ------------- ---- ---- ---- ----- --------------    --------------
Spare disks for block or zoned checksum traditional volumes or aggregates
spare           v0.19   v0    1   3   FC:A   -  FCAL  N/A  120/246784        126/259200 (not zeroed)
spare           v0.33   v0    2   1   FC:A   -  FCAL  N/A  120/246784        126/259200 (not zeroed)
spare           v0.37   v0    2   5   FC:A   -  FCAL  N/A  120/246784        126/259200
spare           v0.38   v0    2   6   FC:A   -  FCAL  N/A  120/246784        126/259200
spare           v0.40   v0    2   8   FC:A   -  FCAL  N/A  120/246784        126/259200
spare           v0.42   v0    2   10  FC:A   -  FCAL  N/A  120/246784        126/259200
spare           v0.44   v0    2   12  FC:A   -  FCAL  N/A  120/246784        126/259200
spare           v4.22   v4    1   6   FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.23   v4    1   7   FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.24   v4    1   8   FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.25   v4    1   9   FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.26   v4    1   10  FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.27   v4    1   11  FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.28   v4    1   12  FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.29   v4    1   13  FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.36   v4    2   4   FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.39   v4    2   7   FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.41   v4    2   9   FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.43   v4    2   11  FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.45   v4    2   13  FC:B   -  FCAL  N/A  120/246784        126/259200
R2*>

备用盘中的一个盘已经顶上来了,当把盘放回去的时候。新的盘作为spare的盘,不会去把以前的盘给替换回来。
R2*> disk simpull v0.21:NETAPP__:VD-100MB-FZ-520_:89570505:259200
disk simpull: Disk v0.21:NETAPP__:VD-100MB-FZ-520_:89570505:259200 does not exist.
R2*> disk simpush v0.21:NETAPP__:VD-100MB-FZ-520_:89570505:259200
R2*> Sun Mar 23 01:50:45 EDT [ses.status.driveOk:info]: The error on drive 6 on DiskShelf14 shelf v0.1 has been corrected.
Sun Mar 23 01:50:46 EDT [raid.disk.inserted:info]: Disk v0.21 Shelf 1 Bay 5 [NETAPP   VD-100MB-FZ-520  0042] S/N [89570505] has been inserted into the system
Sun Mar 23 01:50:47 EDT [raid.assim.disk.spare:notice]: Sparing Disk /v0.21 Shelf 1 Bay 5 [NETAPP   VD-100MB-FZ-520  0042] S/N [89570505], because volume is online and complete
Sun Mar 23 01:50:56 EDT [ses.channel.rescanInitiated:info]: Initiating rescan on channel v0
Sun Mar 23 01:50:56 EDT [ses.channel.rescanInitiated:info]: Initiating rescan on channel v4
Sun Mar 23 01:51:16 EDT [sfu.firmwareUpToDate:info]: Firmware is up-to-date on all disk shelves.
在EMC SYMM中热备盘的位置很重要,换盘后会需要把热备盘恢复到以前的热备状态。这里感觉不太一样。


[ 本帖最后由 ender 于 2008-6-29 20:04 编辑 ]

TOP

引用:
原帖由 冬瓜头 于 2008-6-29 17:48 发表
呵呵,踢场子好,我真喜欢有人踢我的场子,如果都来说客套话,那有意思么?来了就要fight一场。忠言逆耳,良药苦口,我喜欢。

拔盘做迁移,兄弟你真说对了,netapp就是不怕你拔盘,随便你怎么弄吧,机器自身互相换 ...
这个可能跟最初的DOT的设计有关系。以前有客户问过我,把CX柜子上的盘拔出来放在一个地方做为备份可否。我觉的理论上是可以的,但风险很大,等真的要这些盘来恢复的时候,盘放了那么久还点的亮不都不知道。当柜子有问题的时候换柜子的动作也就是这样,这个时间短,也是唯一的办法了。
DOT的开发人员干脆直接 用来做数据迁移了。有想法啊。呵呵。

TOP

换到别的模拟器暂时还没想到办法,但在一个机器里面把整个RAID组的盘都换个插槽应该是很简单了。
     生命在于折腾啊。哈哈。

TOP

zeroing 使用过的盘

以前在一个aggregate中使用过的盘,再次使用之前可以对其做做zero的动作,下次加入新的aggregate时可以减少延时。


Spare disks

RAID Disk       Device  HA  SHELF BAY CHAN Pool Type  RPM  Used (MB/blks)    Phys (MB/blks)
---------       ------  ------------- ---- ---- ---- ----- --------------    --------------
Spare disks for block or zoned checksum traditional volumes or aggregates
spare           v4.19   v4    1   3   FC:B   -  FCAL  N/A  120/246784        126/259200 (not zeroed)
spare           v4.20   v4    1   4   FC:B   -  FCAL  N/A  120/246784        126/259200 (not zeroed)
spare           v4.21   v4    1   5   FC:B   -  FCAL  N/A  120/246784        126/259200 (not zeroed)
spare           v4.23   v4    1   7   FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.24   v4    1   8   FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.25   v4    1   9   FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.26   v4    1   10  FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.27   v4    1   11  FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.28   v4    1   12  FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.29   v4    1   13  FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.33   v4    2   1   FC:B   -  FCAL  N/A  120/246784        126/259200 (not zeroed)
spare           v4.36   v4    2   4   FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.37   v4    2   5   FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.38   v4    2   6   FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.39   v4    2   7   FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.40   v4    2   8   FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.41   v4    2   9   FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.42   v4    2   10  FC:B   -  FCAL  N/A  120/246784        126/259200
R2>  disk zero spares

Spare disks

RAID Disk       Device  HA  SHELF BAY CHAN Pool Type  RPM  Used (MB/blks)    Phys (MB/blks)
---------       ------  ------------- ---- ---- ---- ----- --------------    --------------
Spare disks for block or zoned checksum traditional volumes or aggregates
spare           v4.19   v4    1   3   FC:B   -  FCAL  N/A  120/246784        126/259200 (zeroing, 8% done)
spare           v4.20   v4    1   4   FC:B   -  FCAL  N/A  120/246784        126/259200 (zeroing, 7% done)
spare           v4.21   v4    1   5   FC:B   -  FCAL  N/A  120/246784        126/259200 (zeroing, 7% done)
spare           v4.23   v4    1   7   FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.24   v4    1   8   FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.25   v4    1   9   FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.26   v4    1   10  FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.27   v4    1   11  FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.28   v4    1   12  FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.29   v4    1   13  FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.33   v4    2   1   FC:B   -  FCAL  N/A  120/246784        126/259200 (zeroing, 6% done)
spare           v4.36   v4    2   4   FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.37   v4    2   5   FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.38   v4    2   6   FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.39   v4    2   7   FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.40   v4    2   8   FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.41   v4    2   9   FC:B   -  FCAL  N/A  120/246784        126/259200
spare           v4.42   v4    2   10  FC:B   -  FCAL  N/A  120/246784        126/259200

TOP

增强的内部数据可靠性保护

保证数据的可靠是任何一个存储系统都必须做到的,除了前面介绍到的以后NETAPP还提供下面两种方式来增强数据可靠性
RAID-level checksums  检验读出的数据量和写入的数据量,当它们相等的时候,确认无数据丢失。??
Multipath I/O setup  提供内部互联的冗余。为到同一个盘提供了第二条路径,防止了单点失败的可能。

[ 本帖最后由 ender 于 2008-6-30 20:31 编辑 ]

TOP

RAID Group Size

一个RAID Group可能包含2到28块磁盘,是由硬件平台和RAID类型来确定的。
CX,一般一个RAID Group用5块或9块盘的情况比较多,相对来说性能较好。SYMM体系完全不一样,是用hyper来组成的Meta,做BIN的时候会去综合考虑。Netapp的情况不是太清楚了。

根据冬瓜头兄弟的指正,更新

[ 本帖最后由 ender 于 2008-6-30 22:37 编辑 ]

TOP

回答ender不解的问题:
raid level checksum其实就是三种磁盘上的checksum。netapp从初始到现在一共根据情况实现了3中checksum。即block checksum,zone checksum,8/9checksum。具体就不多讲了。BCK提一下,就是520字节每扇区,8字节的checksum不仅存放校验数据,而且还存放lost write保护信息,即fbn和tree id。其它两种checksum方式都是512字节每扇区,然后用对应的策略实现。

关于multipath io,这个词用于netapp一般指的是在同一个机头上用两个口连接相同的柜子,这样会增加loop的吞吐量和iosp,仅当loop saturation的情况下能提高性能,其次还可以做为HA冗余,默认磁盘对半分给两个口,但是属于一个头。

NetApp从来没说过5、9块磁盘性能最佳的说法,请不要套用emc的规则。
敝人博客
《大话存储》购买:当当,互动,淘宝,卓越,自行搜索。

TOP

引用:
原帖由 冬瓜头 于 2008-6-30 21:17 发表
回答ender不解的问题:
raid level checksum其实就是三种磁盘上的checksum。netapp从初始到现在一共根据情况实现了3中checksum。即block checksum,zone checksum,8/9checksum。具体就不多讲了。BCK提一下,就是52 ...
呵呵,多谢解疑。

TOP

发新话题