-4006-505-646

一. 故障描述

客户设备型号为IBM V7000存储,架构为AIX+Sybase+V7000存储阵列柜,需要恢复的数据主要存放在阵列柜上,共12块600G容量的SAS机械硬盘(其中一块为热备盘)。

由于IBM V7000磁盘故障,在更换磁盘数据同步的时候,另一个磁盘也出现了问题,导致逻辑盘无法挂接在小型机上,业务暂时中断。从存储管理界面查看,两块硬盘显示故障脱机,其中10号槽位故障硬盘为热备盘,3号槽位故障硬盘情况如下图所示:

5d072fa95c297.png

图片2.png


客户的阵列柜中共创建了2组Mdisk,加到一个pool中,现客户主要数据pool无法加载,其中共三个通用卷均无法挂载,具体情况如下图所示:

图片3.jpg

二. 镜像磁盘

为防止数据恢复过程中由于误操作对原始磁盘造成二次破坏, 使用winhex软件为其中的10块磁盘做镜像, PC3000给3号槽位的故障硬盘做镜像(可能有较多坏道), 以后所有的数据恢复操作都在镜像盘上进行, 不会对原始磁盘造成影响

三. 恢复流程

恢复方案一、对存储进行强制上线操作

1、 分析故障存储中故障硬盘的离线顺序

2、 修复后离线的故障硬盘

3、 将修复的硬盘插回存储,进行强制上线操作。

恢复方案二解析存储结构

1、Mdisk分析及重组

A、根据客户给出的部分配置信息,将硬盘按照Mdisk组分类。

B、分析每一组Mdisk中的所有硬盘,得到相关raid信息。

C、使用专业的数据恢复软件对Mdisk进行虚拟重组。  

2、 pool分析

A、对所有Mdisk进行分析,得到pool的相关信息。

B、解析pool在Mdisk上的分布情况。

3LUN结构分析

A分析pool中的条带大小

B解析LUN位图,分析各LUN在pool中的分布情况。

C编写程序提取LUN。

四. 掉盘分析

根据raid5的特性得知其最大允许一块成员盘离线即在有一块成员盘故障的情况下还可以正常使用客户存储设备已经失效各组Mdisk中只有一块硬盘离线。

提取V7000存储的日志,通过分析日志得到各故障硬盘的离线顺序。

图片4.png

五. 验证数据

对生成出的数据进行随机抽样检测数据没有问题

六. 数据移交

客户提供存储设备在存储设备上创建与原先环境一样大小数量的LUN,将提取出的数据LUN的镜像文件,使用dd的方式,复制到存储上创建的LUN中,交给客户。 

七. 恢复结果

数据移交后,客户重新配置存储环境数据一切正常。本次数据恢复工作圆满完成。