更换DS4700控制器的悲与喜

更换DS4700控制器的悲与喜

DS4700磁盘阵列的控制器微码升级操作记录

机型:DS4700     原微码:06.23.xx

机型:DS4700    
原微码:06.23.xx

 

更换部件:控制器 (使用的控制器微码07.60.52.00)

更换部件:控制器
(使用的控制器微码07.60.52.00)

项目介绍:

误操作过程:

误操作过程:

于10年3月,XX地市区/州XX分公司相继反映生产读取数据速度较之前变得非常慢,表现在:日常报表抽取数据速度明显变慢,客户打开前台页面速度慢。

       
1,关掉存储换控制器 –(兄弟们千万别再这么干了!说不定真会死人的!)

        1,关掉存储换控制器
–(兄弟们千万别再这么干了!说不定真会死人的!)

现象是:存储报电池电量到期的报警,并DISABLE了存储的写缓存和写镜像!故磁盘速度突然降下来!

       2,未确定使用控制器的微码版本

       2,未确定使用控制器的微码版本

通过收集存储的ASD并分析,并与IBM800确认,定位是DS4700的FW及NVSRAM版本较低(低于6.60.X.X),需要把微码升级至6.60.22.00,即可以解决此电池电量到期的报警的信息!

重点提示:以后更换控制器一定要搞清楚插上去的控制器的微码啊,不然的话。你明白的。。

重点提示:以后更换控制器一定要搞清楚插上去的控制器的微码啊,不然的话。你明白的。。

项目实施操作流程记录 (river
Yang)

误操作之后的结果见图:

误操作之后的结果见图:

一、  问题确认方法

   1,出现报错 data rate negotiation failed

   1,出现报错 data rate
negotiation failed

通过检查,定位故障点在盘阵上( 排查过程不是本节要点)

 

 

1)   
登陆磁盘阵列查看:

ca88官网 1

ca88官网 2

发现控制器A,控制器B的电池都已经FAILED。

2,数据盘被置为OFFLINE状态

2,数据盘被置为OFFLINE状态

2)   
通过MEL查看:

 ca88官网 3

 ca88官网 4

在弹出的页面:

 

3,查看array 发现 容量为0 并且状态是EXPORTED – READY FOR IMPORT

发现控制器A,控制器B的电池都已经FAILED。

3,查看array 发现 容量为0 并且状态是EXPORTED – READY FOR IMPORT

 

二、  电池到期的确认方法

 

ca88官网 5

1)   
登陆主机,通过errpt查看

ca88官网 6

当时看到这里我倒吸一口凉气,这次撞大运了,数据完蛋了。赶紧咨询现场工程师(幸好有一份数据备份)。接下来就是分析数据恢复方案。

#errpt

当时看到这里我倒吸一口凉气,这次撞大运了,数据完蛋了。赶紧咨询现场工程师(幸好有一份数据备份)。接下来就是分析数据恢复方案。

汇总了几个人的意见得出2个方案。

8B88700A  
0221144410 T H hdisk7         高速缓存电池的电量在 87.5% 以下

汇总了几个人的意见得出2个方案。

1,  降微码来恢复数据 (应该有把握恢复数据)。

#errpt
–aj 8B88700A

1,  降微码来恢复数据 (应该有把握恢复数据)。

2,  把盘柜syswipe一下重建然后从备份恢复数据。

标号:FCP_ARRAY_ERR16

2,  把盘柜syswipe一下重建然后从备份恢复数据。

当时都准备执行第一方案准备带着公司的6版本的控制器奔向现场了,这是有兄弟(张泽人)从网上找到一篇文章和这里的情形一模一样。于是大家坐下来仔细查看了这篇文章并且斟酌再三认为即便是这样不行也应该不会破坏硬盘的数据,反正还有数据备份呢。

标识:8B88700A

当时都准备执行第一方案准备带着公司的6版本的控制器奔向现场了,这是有兄弟(张泽人)从网上找到一篇文章和这里的情形一模一样。于是大家坐下来仔细查看了这篇文章并且斟酌再三认为即便是这样不行也应该不会破坏硬盘的数据,反正还有数据备份呢。

索性尝试一下IMPORT ARRAY

日期/时间:    
公元2010年02月21日  星期日  14时44分07秒

索性尝试一下IMPORT ARRAY

过程如下:1,选中array 
à选择advanced –>maintenance->import array

序号:          
25748

过程如下:1,选中array  à选择advanced –>maintenance->import array

 

机器标识:      
00013A91D600

 

 ca88官网 7

节点标识:      
DB2Server

 ca88官网 8

ca88官网 9

类:            
H

ca88官网 10

 

类型:          
TEMP

 

下面这步提示MAPPING将会删除

资源名:        
hdisk7

下面这步提示MAPPING将会删除

 

资源类:        
disk

 

 ca88官网 11ca88官网 12ca88官网 13

资源类型:      
array

 ca88官网 14ca88官网 15ca88官网 16

当看到这步的时候心里高兴极了,恢复成功了。

位置:

当看到这步的时候心里高兴极了,恢复成功了。

 ca88官网 17

U787B.001.DNWFB52-P1-C5-T1-W200B00A0B82AEB1F-L5000000000000

 ca88官网 18

查看硬盘状态都正常。

描述

查看硬盘状态都正常。

 ca88官网 19

高速缓存电池的电量在 87.5%
以下

 ca88官网 20

最后在sm中重新做mapping ,然后在主机端删掉光纤卡然后重认,正常。

可能原因

最后在sm中重新做mapping ,然后在主机端删掉光纤卡然后重认,正常。

Varyonvg datavg  正常  。 mount 文件系统  正常

控制器高速缓存电池

Varyonvg datavg  正常  。 mount 文件系统  正常

启动数据库正常。。此时大家的心算是彻底放到肚子里面了。。

写入高速缓存被禁用

启动数据库正常。。此时大家的心算是彻底放到肚子里面了。。

ca88官网 21

失败原因

ca88官网 22

 ca88官网 23

控制器高速缓存电池

 ca88官网 24

 ca88官网 25

推荐的操作

 ca88官网 26

 

执行问题确定过程

 

后续问题:1,现在微码是07.60.52.00 
按照ibm官方文档上说rdac最高支持到07.60.28.00

监控电池状态。

后续问题:1,现在微码是07.60.52.00 
按照ibm官方文档上说rdac最高支持到07.60.28.00

但是这里启动正常。接下来几天我们会重点关注这个客户的使用情况。最后不行的话估计还得改回mpio模式。

详细数据

但是这里启动正常。接下来几天我们会重点关注这个客户的使用情况。最后不行的话估计还得改回mpio模式。

最后我在ibm官网里面有关于看了一下确实是有关于migrating
an array

检测数据

最后我在ibm官网里面有关于看了一下确实是有关于migrating an array

大概步骤是首先要export array 
然后把硬盘拔出来查到新存储上 最后做import array

0600 0308
0000 FF00 0000 0004 0000 0000 0000 0000 0000 0000 0000 0000 7000
0600

大概步骤是首先要export array  然后把硬盘拔出来查到新存储上 最后做import
array

0000 0098
0000 0000 3FD9 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000

 

0008 3700
0000 0000 0000 0000 0000 0000 0000 5347 3734 3733 3030 3036 2020
2020

2020 0623
0500 0005 00FF FE00 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000

0005 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000

0000 0000
A500 4579 3032 3231 3130 2F30 3030 3632 3200 0000 0000 0000 0000
0000

0000 0000
1F49 9000 F205 3402 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000

0000
0000

说明:

errpt报警明确了磁盘阵列的电池问题!

2)   
登陆存储检查,在recover
guru里发现控制器电池报警;

点击听诊器 —> 点击VIEW

可以明显看到电池接近使用期限(或者还剩下足100天,都需要升级);

3)   
通过查看收集的ASD中的profile,可确认其电池即将到期;

4) 当前存储系统的双控制器微码在06.60.XX.XX之下;

5)   
查看控制器写缓存及写镜像状态,均为DISABLE状态;(电池没电后,写缓存及写镜像自动会DISABLE)

查看路径:(红色小球代表禁用)

6)   
查看收集的ASD中的event
log,确认除电池即将到期之外,没有其它部件FAILED;

三、 电池到期问题的结论

问题导致现象:
1) 电池即将到期,导致写缓存禁用,用户生产系统因此反映缓慢;

2)
IBM回复,控制器微码在06.60.XX.XX之下,其电池的设置期限为3年;需要用户升级微码至06.60或以上,电池的设置期限就更改为10年;

3)
升级完成后如有部件报FAILED,可向IBM报修更换。

诊断结论:

为客户升级存储系统的控制器微码至6.60.xx.xx以上,以解决当前电池到期的问题。

相关文章