-4006-505-646

HP EVA6400磁盘掉线恢复案例


【故障情况描述】

经客户描述,设备型号:HP EVA6400,FC硬盘175块硬盘,由于离线数量超过上限,导致阵列瘫痪,上层LUN无法正常使用。由于存储是因为阵列中某些磁盘掉线,从而导致整个存储不可用。

北亚工程师接收到磁盘以后先对所有磁盘做物理检测,检测完后发现六块硬盘有物理故障,其他硬盘没有物理故障。考虑到,数据的安全性以及可还原性,在做数据恢复之前需要对所有源数据做备份,使用dd命令或winhex工具将所有磁盘都镜像成文件,之后的恢复操作均不对原始设备操作。

【数据恢复过程】

1、分析故障原因

由于前面步骤并检测到磁盘有物理故障,由此推断可能是由于某些磁盘读写不稳定和物理故障导致故障发生。因为HP EVA 6400控制器检查磁盘的策略很严格,一旦某些磁盘性能不稳定,HP EVA6400控制器就认为是坏盘,就将认为是坏盘的磁盘踢出RAID组。而一旦RAID组中掉线的盘到达到RAID级别允许掉盘的极限,那么这个RAID组将变的不可用,上层基于RAID组的LUN也将变的不可用。 

2、分析RSS组信息重构位图

HP EVA 6400存储的LUN的位图信息是基于RSS组的,因此需要先分析底层RSS组的信息,然后根据分析的信息重构位图。根据RSS组信息分析每一块数据盘并从数据盘上提取位图信息,在进行重新组合,重构位图信息。

3、分析RSS组损坏硬盘信息

由于存储是硬盘离线过多导致的崩溃,所以就需要确认在那一个RSS组里面离线的硬盘超过上限,因为在一个RSS组中,只允许离线一块硬盘。存储崩溃的话,在RSS组中离线的硬盘就超过一块,就会出现先离线和后离线的硬盘顺序。因此需要分析这硬盘掉线的顺序。仔细分析每一块硬盘中的数据,发现有一块硬盘在同一个条带上的数据和其他硬盘明显不一样,因此初步判断此硬盘可能是最先掉线的,通过北亚自主开发的校验程序对这个条带做校验,发现除掉刚才分析的那块硬盘得出的位图信息是最好的,因此可以明确最先掉线的硬盘了。

4、根据位图信息提取LUN

根据分析得到的位图信息,在每一块数据盘上进行数据块的组合,根据分析的位图信息将lun最新的状态虚拟出来。然后针对这些信息编写相应的程序,对所有数据MAP做解析,然后根据数据MAP并导出所有的LUN。 

5、解析Reiser FS文件系统

仔细分析导出来的lun,并根据Reiser FS文件系统的底层结构校验此文件系统是否完整。分析发现底层Reiser FS文件系统果然有问题,原来当时存储瘫痪的同时此文件在系统正在执行IO操作,因此导致部分文件系统元文件没有更新以及损坏。使用北亚自主研发的Reiser FS文件系统解析程序,直接把lun里面的数据库文件全部导出,并通过NFS共享的方式,把恢复出来的数据共享到验证服务器应用环境中。

6、检测数据库文件

把所有的恢复出来的数据文件,以NFS共享的方式,共享到验证服务器的应用环境中,来检测数据库文件的正确和完整性。使用数据库文件检测工具“dbv”检测每个数据库文件是否完整,发现并没有错误。
【数据验证及结果】
由用户方配合,启动数据库,对最新的数据记录以及历史数据记录进行验证,并且有用户安排远程不同部门人员进行远程验证,发现文件可以正常使用,数据恢复成功。

北京北亚数据恢复中心:4006-505-646


4006-505-646