-4006-505-646

IBM DS 5300存储硬盘故障数据恢复方案


IBM DS5300全名(IBM System Storage DS5300)是IBM推出的中端存储系统,它有一个设计合理、功能强大的内部架构,大幅度提升了性能,但某些物理故障或其他操作都可能会对卷或存储造成破坏,因此对系列存储的数据恢复技术才有了用武之地。而发生这些故障之后只能找专业的数据恢复公司做数据挽救工作。作者最近就处理过一起IBM DS5300因磁盘故障导致存储不可用的案例,见下文。

一、故障描述:

某公安局的一台IBM DS5300的存储,一个机头,连接的4个扩展柜,底层是50块600GB的硬盘组的RAID。两组RAID5,其中一组RAID崩溃,这组RAID由27块600G硬盘组成,存放是Oracle 数据库文件,在存储系统上层一共分了11个卷,卷大小为1TB有10个,一个为4TB。后来因磁盘故障导致存储不可用,已经过保,联系我们做数据恢复。

二、硬件检测:

我们的硬件工程师先对客户的27块硬盘做了硬件检测,发现客户的2块硬盘出现坏道、SMART的错误冗余级别已经超过阀值,对25块正常的硬盘进行全盘镜像,对2块有坏道的硬盘用硬件工具进行了恢复并生成镜像文件。

1.png

图一

2.png

图二

三、故障分析:

首先收集IBM DS5300存储日志信息。从存储上硬盘的指示灯看到有两块盘亮黄灯,对收集到的日志信息进行分析,分析两块硬盘的掉线时间,从而知道那块硬盘里面的数据是最新,用数据最新的硬盘进行数据恢复。

解决方案:

方案一:通过IBM DS存储管理软件进行强制上线,在强制上线之前把存储的所有硬盘都进行备份,之后进行强制上线。

方案二:通过对硬盘底层数据分析,进行RAID重组,从底层提取数据,重新加载oracle数据库,调试上层应用。

四、实施方案:

已经把存储的所有硬盘都进行过备份,出现问题也可以进行还原,所以先采用第一种解决方案,先在模拟器上进行测试,之后再存储上进行上线操作。

通过IBM DS存储管理软件进行强制上线,强制上线之后raid处于降级状态,这个时候设置好热备盘,让热备盘顶上,进行数据同步,同步完之后上层的卷直接可以用了,所有数据也都可见了,上层应用也能正常使用。

第一种解决方案,节省了很多时间,上层应用也不需要在调试,可以直接启动。

3.png

图三

4.png

图四

5.png

图五

6.png

图六

五、数据恢复成功:

由于上层的卷直接可以用了,所以数据也都可见了,但是考虑到安全问题,我们还是将卷里的文件都拷贝出来,然后移交给客户。终于在用户要求的时间内将数据恢复完成。整个恢复过程一共历时5天。之所以能这么快恢复,还是在于我们之前研究过IBM DS5300的存储原理。知道了IBM DS5300的存储原理以后,关于它的所有数据灾难都可以进行恢复。