-4006-505-646

RAID损坏成功恢复案例


[故障类别]

(一)故障类型:RAID损坏

(二)典型特征:

1.RAID存储中有多块物理硬盘指示灯报警

2.RAID管理中显示多块物理硬盘呈离线或丢失状态

3.RAID信息丢失,所有物理硬盘不再是ONLINE状态

4.无法进入RAID管理界面或查看RAID相关信息时死机

(三)损坏程度星级评价:★★★

[解决方案]

(一)恢复流程

1.检测流程:

(1)对故障RAID中的所有硬盘做完整物理检测,确定每个硬盘的运行状态是否良好;

(2)查看当前可以正常读取的物理硬盘底层数据流,确定属于故障RAID中参与数据存储的物理硬盘(非热备硬盘)。

2.实施流程:

(1)将当前所有运行状态良好的非热备硬盘完整备份至带有冗余功能的安全存储中,对于存在物理问题的硬盘须先按照相应故障类型的解决方案进行恢复,并尽最大可能将故障物理硬盘的数据同样备份至安全存储;

(2)对当前已完整备份的所有硬盘镜像进行分析,确定故障RAID的原结构参数(RAID级别、条带块大小、硬盘盘序、数据校验方式等),同时判断故障RAID中各硬盘的离线情况;

(3)依据分析所得RAID参数及离线硬盘情况在只读环境中构建RAID数据,并对所构建的虚拟RAID进行基本的逻辑校验,确定文件系统大体结构无误后将RAID生成完整镜像;

(4)对备份生成的RAID镜像进行完整的逻辑分析和校验,若镜像内的文件系统仍存在不一致情况,则依据相应文件系统损坏情况的解决方案进行修复,直至迁移出用户所需数据。

3.验收流程:

(1)对已迁移出来的所有数据做属性统计并汇总,从文件数量和容量等方面确保用户所需数据已全部迁移成功;

(2)对已迁移出来的所有数据做统一算法的完整性验证,确保文件在目录结构及底层逻辑等方面正确无误;

(3)对用户指定的关键数据文件进行针对性校验,确保用户关键数据完美成功恢复。

(二)恢复的可靠性分析及时间预估:

1.若存储为RAID信息损坏的单一故障类型(文件系统无损坏),则恢复成功率非常高,时间为1天-3天不等;

2.若存储内文件系统或数据库出现一定损坏,数据恢复工作会比较棘手,但成功率也比较高,时间为2天-4天不等;

3.若对RAID做过强制ONLINE或REBUILD操作,此时存储内的文件系统和数据可能已严重受损,多数情况下将无法100%恢复数据。极端情况下,数据恢复工作可能无法完成。数据恢复工作将变得异常艰难甚至无法完成。

(三)服务费用

1.单一故障(仅RAID信息损坏):1500元/盘起

2.复合故障(文件系统有一定损坏或数据库损坏):2000元/盘起(另数据库修复请参照相应故障类型服务费用)

[小贴士]

(一)RAID模块的重要性:RAID是一种将多块物理硬盘整合成一个虚拟存储的技术,而RAID模块相当于一个存储管理中间层,上层接收并执行操作系统及文件系统的数据读写指令,下层管理数据在各个物理硬盘上的存储及读写,相对于单独的物理硬盘,RAID可以为用户提供更大的独立存储空间、更快的数据读写速度、更高的数据存储安全及更方便的统一管理模式,RAID模块的正常运转是保障RAID存储中数据正常读写的关键所在。

(二)故障出现的可能原因

1.RAID存储中的硬盘出现物理故障

2.RAID数据传输通道不畅或数据传输模块老化

3.系统更新、重启或存储意外断电导致RAID信息丢失或RAID模块损坏

4.RAID模块升级或重装系统导致RAID信息丢失或被重新创建