-4006-505-646

浪潮存储AS500G3raid5阵列瘫痪,导致LUN无法正常使用成功恢复案例


一、故障描述

1、设备清单

设备名称     设备型号       数量

浪潮存储      AS500G       31

SAS硬盘                          16

2、故障描述

整个存储空间由600G SAS硬盘组成,共16块,其中15块硬盘组成一个RAID5的阵列,剩余1块做成热备盘使用。根据日志描述:由于RAID5阵列中出现1块硬盘故障,热备盘成功激活,同步完成后,又有两块硬盘出现故障,因此导致RAID5阵列瘫痪,上层LUN无法正常使用。

二、检测磁盘

由于存储是因为RAID阵列中某些磁盘掉线,从而导致整个存储不可用。因此接收到磁盘以后先对所有磁盘做物理检测,检测完后发现六块硬盘有物理故障,其他硬盘没有物理故障。(备注:六块物理故障硬盘中,一块硬盘的盘片出现故障,盘片被划伤,无法修复、一块硬盘固件故障、此故障何以通过专业手段修复,剩余四块硬盘出现物理坏道),其中坏道硬盘坏道情况,槽位硬盘:8、9、12、14出现坏道,坏道个数分别:868、97、169、61,如下图:

blob.png

三、备份数据

考虑到,数据的安全性以及可还原性,在做数据恢复之前需要对所有源数据做备份,以确保现有数据的安全。使用dd命令或winhex工具将所有完好磁盘以只读方式镜像成文件。

物理故障硬盘备份:固件故障和物理坏道的硬盘,使用专业工具(PC3000-SAS)进行备份,盘片故障的硬盘就彻底损坏无法备份。

四、故障分析

1、分析故障原因

由于前两个步骤并检测到磁盘有物理故障,由此推断可能是由于某些磁盘读写不稳定和物理故障导致故障发生。因为浪潮AS500G3控制器检查磁盘的策略很严格,一旦某些磁盘性能不稳定,浪潮AS500G3控制器就认为是坏盘,就将认为是坏盘的磁盘踢出RAID组。而一旦RAID组中掉线的盘到达到RAID级别允许掉盘的极限,那么这个RAID组将变的不可用,上层基于RAID组的LUN也将变的不可用,目前初步了解的情况为基于RAID组的LUN划分LVM给虚拟化使用,重要数据为虚拟化中的SQL Server数据库。

2、检测分析结果

A、由于有一块硬盘无法修复,所以要在缺少一块硬盘的情况下重组RAID5,因此部分数据肯定会有所缺失或损坏。

B、分析所有硬盘中的数据,几乎可以明确损坏的那块硬盘中的数据会影响到虚拟机及数据库,因此后续还需修复虚拟机及SQL Server数据库。

C、相比之前的电话初检,实际检测多出以下检测结果及数据恢复的复杂度:

1、硬盘的物理损坏大于5块以上。

2、有物理硬盘严重损坏,且无法修复。

3、存储非传统Raid,而是基于数据切块的及数据MAP的LUN,因此在解决Raid问题之后还需要解决LUN逻辑卷的问题。

4、已明确后续的虚拟机及SQL Server数据库会出现数据文件损坏或数据丢失的情况发生,因此后续还需要修复损坏的虚拟机及数据库。