-4006-505-646

服务器数据恢复环境:

某公司网站服务器,6块SCSI硬盘组建raid5磁盘阵列;

服务器上层:linux操作系统+EXT3文件系统。


服务器故障&分析:

服务器在工作状态下raid5磁盘阵列中的一块硬盘由于未知原因离线。因为raid5中的一块硬盘掉线并不会影响磁盘阵列的正常工作,服务器没有出现异常,直到该raid5磁盘阵列中又有一块硬盘掉线,服务器瘫痪。

管理员发现服务故障后,对raid5磁盘阵列进行了检查,但是不能确定这两块硬盘的离线顺序,抱着碰运气的想法选择了其中一块离线硬盘尝试强制上线操作。将这块硬盘强制上线后发现操作系统启动时出现异常,为了避免再次对数据造成破坏,管理员将服务器关机,之后没有进行任何操作。

在过去十多年中,北亚企安数据恢复工程师们经常遇到类似的raid5故障:由于发现不及时或者第一块硬盘掉线时不在意并没有及时处理,当第二块硬盘甚至更多的硬盘掉线时,磁盘阵列彻底崩溃。第二块磁盘掉线后对后离线的硬盘进行强制上线具有一定的可操作性行,但是也有很大的风险。

强制上线最好由经验丰富的管理员或者数据恢复工程师进行操作,而且强制上线之前必须做好备份工作。这个案例就是管理员在没有备份,也没有搞清楚硬盘离线顺序的情况下进行了强制上线操作,最终导致数据丢失,服务器崩溃。


服务器数据恢复过程:

1、将故障服务器内的所有硬盘编号后取出,以只读方式对所有硬盘进行镜像备份。后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始数据造成二次破坏。

2、在镜像过程中发现除了已经掉线的两块硬盘外,其他没有掉线硬盘存在坏道,由于这些硬盘没有离线所以暂时没有进行特殊处理。

3、备份完成后基于镜像文件分析原raid5磁盘阵列的组成结构并虚拟重构raid5环境。

4、由于管理员对磁盘阵列进行过强制上线的操作,该操作破坏了部分数据结构。

5、验证raid5结构后由北亚企安数据恢复工程师手工修复被破坏的那部分结构,导出磁盘阵列内的所有数据。经过数据恢复工程师和管理员的验证,确认恢复出来的数据完整有效。

6、在数据恢复工程师的协助下,管理员在准备好的服务器环境上重新搭建磁盘阵列并迁移数据。


服务器数据恢复Tip:

1、服务器发生故障后,切忌对服务器进行操作;也不要随意取出硬盘,以免弄乱盘序。

2、如果需要取出硬盘,标记好硬盘的顺序之后再取出。

3、服务器磁盘阵列瘫痪后应该立即断电,不要做同步或强制上线操作,防止数据进一步破坏。

4、当服务器由于未知原因的故障而导致系统崩溃或者文件不识别/不可用时,通常不建议盲目地在服务器上进行数据分析和数据恢复操作。如果确实对自己的数据恢复技术有自信,必须先对原服务器的所有硬盘数据进行镜像备份,数据分析和数据恢复操作只能在镜像文件上进行,避免操作失误破坏原始数据,让后续的数据恢复难度增加。