发新话题
打印

CX500 怪问题

按常理,Agent必须在LUN和控制器的识别都正常之后才能进行。如果没认全LUN就安装Agent,这种隐患不是Agent造成的,而是安装Agent那个人造成的。

TOP

这个隐患不是安装的人造成的,而是EMC设计造成的。也许是SAN存储造成的。

TOP

从LZ表述的现象来看,既然网络可以ping通,说明硬件部分应该没有问题。另外关于agent的作用,navi agent主要用于初次安装与配置时,在主机端安装agent,与阵列端的navi server进行通讯联系的,捕获主机端的配置信息等等,如果通讯正常的话,阵列端会自动将Register上(通过IE浏览器进去管理可查看到)。然后再做创建Storage Group,加入Lun和主机。如果主机端不安装agent,当然会引起不正常的现象。至于主机端的网络断了会出现什么样的情况,7楼的兄弟讲得很清楚了。另外,我觉得LZ应该反思一下:为什么不按照的标准的安装流程去配置,一味地往某个方面钻死牛角尖有什么意义呢?欢迎讨论!

TOP

“navi agent主要用于初次安装与配置时”这句话是错误的,navi agent作为一个服务是必须时刻开启的,因为它每60秒(默认)与盘柜通讯一次,确认服务器是否在线。我的系统是在盘柜里注册之后,再重新安装的,也就是说:我的HBA卡及Agent和系统是在盘柜的管理程序里注册过的!!我在重装系统的时候,Linux安装程序能在分区的时候把盘柜分给的LUN3看作为一个500G硬盘呀。而且在重装系统的时候,所有的参数都没变,包括分区信息,仅仅是把系统重装一下而已!!!装完系统之后,再安装Agent,这也没有错,而问题是EMC的Agent并不聪明,它在启动Agent服务的时候,向盘柜注册时,会按/etc/hosts文件中的信息注册!Linux系统在装完系统之后hosts文件中只有一条信息,那就是:
机器名  127.0.0.1       localhost
这样一条信息重新注册给盘柜,盘柜再根据127.0.0.1这个地址去找有HBA卡的机器,这当然是行不通的,也就会出现unkown了。
正确的做法是在hosts文件中加入
机器名   172.31.1.250  (与盘柜在同一网段)  
而且这一条还必须在 127.0.0.1那条的前面,否则仍然会用127.0.0.1那条信息去重新注册的。

后来经过多次测试,一旦把LUN指定给某一块HBA卡,这块在卡所在的机器不管把系统怎么重装(还是同一种操作系统),只要在hosts文件中加入:机器名   172.31.1.250
且在127.0.0.1之前,就不会出现注册不成功的现象。而且这种情况在多网卡机器上尤其要注意。

这里权当是给兄弟们提供一个经验,以免再出现本人遇到的问题,但从这里是完全可以看出,EMC500的工作好坏是与服务器网卡的工作情况紧密联系的,不容置疑。

对一个问题多思考一下,并不是“钻死牛角尖”!是想更好地弄清楚它的工作原理,也就是更好地去了解这个产品的优点缺点,希望做到扬长避短。这是一种创造性的劳动!当然不对工作不负责任也就罢了,对业务不思进去也就罢了,不用去想这么多。

再比如,我们这里现在的备份恢复还存在一个小问题,备份用的是Vertas,但是一旦出现问题要恢复,需要的时间就比较久,至少5、6小时,正常的可能要10小时以上。这是不允许的,至多在2~4小时内恢复还是可以接受。这就需要去想办法,那怕是再去买软件、硬件,也要了解清楚这个软件、硬件能否达到我们的要求呀!也不能让集成商说了算,而一旦真的出问题的时候它却做不到,到时候就算打官司,也能怎么样呢?!

现在很多人做事都不经过脑子,别人怎么说,就认为是那样,那还要你这个人做什么,不用台电脑就行了,别人输入什么就是什么??!!

[ 本帖最后由 jxh_ty 于 2005-8-27 13:52 编辑 ]

TOP

Agent的确只关心hosts文件中的第一个有效行,如果第一行是127.0.0.1 localhost,的确会被识别成‘unkonwn’。但是,这并不会造成控制器上的错误,更不会造成控制器down机。从最早的5300到CX600/700,我装过的CLARiiON少说也有30多个了,有AIX平台的,也有Solaris平台的,还有Linux和Windows平台的。没有一台因为Agent注册错误down机的。unknown顶多影响LUN masking的配置而已。

TOP

严重不同意zcjgrace 的说法,做为工程师一定要明白是怎么回事,为什么是这么回事,而不是照搬手册,虽然我也严重同意按手册工作是个好习惯。
因为我们不是售前,不用吹嘘什么,最终用户也不是领导,他最关心的是你的设备给他的日常使用会带什么影响。你只要实话实说的告诉他,就是产品有瑕疵他也不至于闹着退货,而是想办法祢补。这也算是优化的一种了。

弄明白了是怎么回事,并不代表我们就要那样去做,非得让设备出问题不可。我想每一个有经验的工程师都会老老实实按步就搬的完成工作。

对于这个问题我还有些想不明白。就是这个agent的作用倒底是什么,假如正确注册了,某一时刻控制器也发现主机不在线了,那它会做什么样的操作呢?如果什么也不干,那这个agent岂不成了鸡肋?
万里长城十亿兵
国耻岂待儿孙平
愿提十万虎狼旅
越马扬刀入东京

TOP

agent的作用其实主要还是让navisphere的显示更清楚。比如你想对某个逻辑盘做快照,如果光对着LUN1、LUN2……这样一堆信息,你很容易搞错应该把哪个盘作为快照对象。但是如果在navisphere里能看见/dev/sda、/dev/sdb……这样的信息,就不那么容易出错了。

TOP

哦,这样倒真的是很方便了,不用用脑袋记住是哪几个LUN映射给谁了。
万里长城十亿兵
国耻岂待儿孙平
愿提十万虎狼旅
越马扬刀入东京

TOP

努力向楼上的几位学习!!!

TOP

EMC CX 就是不稳定的

不奇怪,EMC CX 就是不稳定的

TOP

发新话题