-4006-505-646

Raid5盘阵2块硬盘损坏,热备盘未激活,数据恢复概述


【Raid5阵列数据恢复案例简介】

今天记录一次raid5磁盘阵列数据恢复的成功案例。首先简单介绍一下需要数据恢复的服务器基础配置情况:
客户的服务器设备为EMC存储,raid5磁盘阵列,由多块stat硬盘组成一组磁盘阵列,包含两块热备盘。服务器发生故障崩溃时底层硬盘有2块出现故障,热备盘中有一块被激活。


【服务器数据恢复常规检测】

北亚数据恢复中心的数据恢复工程师前往客户现场对服务器设备进行故障检测。服务器数据恢复工程师对客户服务器设备进行了简单排查,确认raid5阵列瘫痪;上层lun无法正常使用,2块热备盘中有一块已经启动。

数据恢复工程师对掉线的硬盘进行物理排查,两块硬盘中均未检测到坏道、磁头故障等物理损坏。进行接下来的数据恢复操作时可以不需要进行物理修复即可。


【raid5数据备份】

在数据恢复操作之前,需要将服务器设备上的所有原始数据进行镜像备份,在本次数据恢复案例中,服务器数据恢复工程师将所有硬盘连接到北亚数据恢复中心的数据恢复专用存储池中,对所有硬盘进行了扇区级镜像操作。


【分析该服务器raid组结构】

服务器数据恢复操作通常都是基于恢复raid组进行数据恢复操作的,因此本次数据恢复操作也同样需要对raid阵列基础信息进行分析,从而重组raid结构。

经过数据恢复工程师对每一块硬盘的分析发现,客户原服务器内的两块热备盘内全部没有任何数据,也就是说即使被激活的热备盘也同样没有同步到任何数据,两块热备盘从实际上而言并没有发生任何作用。想要恢复数据,只好继续恢复原raid5阵列的其他基本数据,重组raid5.


【分析RAID组掉线盘信息】

根据上述数据恢复思路,服务器数据恢复工程师使用自主研发的数据恢复工具分析出该组raid5阵列的基础信息,并虚拟重组出了raid5磁盘阵列。在raid数据恢复常规流程下,我们会将多块硬盘掉线的阵列中最早掉线的硬盘从阵列中剔除。通常我们进行数据分析的方法是比对每块硬盘在同一个条带上的数据是否一致,将明显不同的硬盘剔除后进行条带校验,直至找到数据恢复的最佳状态为止。


【分析RAID组中的LUN信息】

成功重组出raid5阵列后,北亚数据恢复工程师开始对lun信息进行分析,在本次数据恢复案例中,客户的服务器上层只有一个lun,工程师只需要将这唯一的一个lun信息进行分析,然后使用北亚的raid数据恢复程序对lun数据的map进行解析和导出。

【ZFS文件系统解析并修复】

使用北亚数据恢复的自研发数据恢复工具对上层的文件系统进行解析和恢复。客户上层采用的是zfs文件系统,服务器数据恢复工程师对文件系统解析时发现部分文件系统元文件报错,于是数据恢复工程师对现有的数据恢复工具进行debug调试,使程序适应本次数据恢复的实际情况。

经过调试,导致zfs文件系统解析报错的原因是由于客户的服务器突然瘫痪导致文件系统中某些元文件被损坏,导致北亚数据恢复工具无法正常解析。服务器数据恢复工程师针对损坏的元文件采用人工修复等方法,保障zfs文件系统可以被正常解析。

图片1.png

【导出raid5阵列内所有数据】

通过对文件系统的完整解析,服务器数据恢复工程师最终将客户raid阵列内的数据完整导出,由客户工程师配合搭建数据验证环境,恢复出来的所有数据进行验证,经过验证,客户原服务器内的所有数据均被成功恢复,本次数据恢复成功。

图片2.png

图片3.png

北京北亚数据恢复中心:4006505646