-4006-505-646

EMC 存储RAID故障数据恢复


本次分享的案例为EMC 存储服务器由于硬盘出现故障离线瘫痪。服务器中共有10块硬盘,其中7块硬盘组成RAID 5磁盘阵列,另外3块硬盘为服务器在使用过程中的掉线磁盘。客户在处理掉线磁盘时只添加新的硬盘做rebuild,并没有将掉线的硬盘拔掉,现已有过3块掉线磁盘,所以服务器中有3块多余硬盘。服务器管理员推断服务器瘫痪的原因是阵列中硬盘出现硬件故障导致服务器瘫痪。
 
北亚工程师对硬件进行物理检测,工程师对服务器中所有硬盘逐一进行物理检测后并没有发现硬盘存在物理故障后工程师对所有硬盘做全盘镜像后对服务器RAID进行分析。
 
【数据恢复过程】

按照数据恢复流程对所有磁盘进行镜像备份后,工程师开始对服务器RAID结构进行分析;工程师分析后发现该服务器中的硬盘每512字节多加了一个8字节的校验,也就是变成了每扇编写了一个小程序将8字节的校验去掉来方便后期的工作。
所有磁盘都转换完成后,工程师继续分析RAID的结构。由于多了3块以前的旧盘,需要通过比较每块磁盘,即其中会有两块磁盘前面的一部分相同,而这两块当中会有一个是旧的,旧的数据量没有新盘多,就可以排除旧的磁盘。这样的磁盘会有3对,也就可以排除所有旧的磁盘了。
接下来看RAID结构,由于客户用的NTFS文件系统,用MFT很容易就可以找到RAID的结构了。知道RAID结构后发现这不是一个普通的RAID 5,而是一个双循环。无法借助数据恢复工具重组RAID,只好转为其他方式重组RAID阵列!重组RAID后发现数据不是最新的。工程师猜测可能是RAID 5先掉线一块硬盘时管理员没有及时发现,没有及时添加新的硬盘做rebuild。导致运行一段时间后又有一块硬盘掉线了,才造成整个RAID不可用。所以还需要找出一块旧的磁盘,才能生成最新的数据。继续进行找盘的工作!工程师采用穷举加校验的方法进行分析,即假设某个磁盘是掉线的,踢掉磁盘后重组RAID,但不是生成全部的数据,而是只生成前面5G的数据,我们只需要查看这个索引表的位图的信息是否正确就可以判断此RAID是否正确。如果正确那么生成此RAID的数据即可完成RAID的重组。
 
【数据恢复结果】

整个恢复过程,包括做镜像,扇区转换和最后的拷贝数据,一共耗时3天。经客户验证数据没有问题,本次数据恢复成功。

北京北亚数据恢复中心
4006-505-646
地址:北京市海淀区中关村创客小镇16号221