-4006-505-646

Netapp存储误删除lun数据恢复过程


一、数据恢复背景

北京某公司一台netAPP存储;服务器内配置72块SAS硬盘,由于误操作删除了12个lun,其中包含了客户重要的数据和客户信息。急需进行服务器数据恢复操作,客户具有一定的数据恢复知识,于是在北亚数据恢复中心工程师的指导下将需要进行恢复数据的服务器中所有硬盘进行了镜像备份,将镜像盘带至北亚数据恢复中心进行服务器数据恢复。


二、服务器数据恢复过程

北亚数据恢复中心接到客户的镜像数据后安排服务器数据恢复工程师对数据进行分析,找到了盘头位置的超级块,继续分析超级块信息得到磁盘组的起始块信息、磁盘组名称、逻辑组起始块号、raid编号等基本信息。

图片1 服务器数据恢复分析超级块.png

图1: 服务器数据恢复分析超级块

通过分析得知每个数据块占8个扇区,数据块后附加64字节数据块描述信息。根据这些信息可以判断出哪些磁盘是校验盘并在数据恢复的过程中踢出。

0x10:6字节为aggr_data块号

如果0x10处为FFFF表示校验块

图片2校验块描述信息样例.png

图2: 校验块描述信息样例


盘序分析时主要依据每块磁盘8号扇区的磁盘信息以及磁盘末尾的RAID盘序表确定盘序。首先要确定各个磁盘所属aggr组,然后再判断组内盘序。数据指针跳转时不考虑校验盘,所以只取得数据盘的盘序即可。

aggr_raid(磁盘靠近尾部) 根据10H处的VCN块号判断磁盘组内各盘的顺序

图片3服务器数据恢复分析盘序表.png

图3: 服务器数据恢复分析盘序表

Netapp的节点分布在数量众多的数据块内,在数据块内又被统一组织为节点组。每个节点组的前64字节记录一些系统数据,之后用192字节为一项记录各个文件节点。根据用户级别可分为两类:“MBFP”系统文件节点和“MBFI”用户文件节点,在数据恢复时一般只取MBFI节点组即可。

图片4服务器节点样例图.png

图4:服务器节点样例图

头部信息64字节

解析如下:(此头部为数据文件的节点文件块头部,大小为64字节)

标志,常量(“MBFP”为元文件的节点标志,“MBFI”为用户文件的节点标志)

根据更新序列值获取到最新节点

解析节点中节点类型,逻辑块号,文件数量,文件大小,所占块数量,及数据指针

获取节点在节点文件中的逻辑块号,从0开始计数

6、获取目录项,并根据其节点编号,找到对应节点

图片5获取服务器内对应节点截图.png       


图5:获取服务器内对应节点截图

通过程序提取服务器数据

1、扫描节点信息

图片6扫描服务器节点信息.png

图6:扫描服务器节点信息

图片7节点扫描类.png

图7: 节点扫描类

图片8节点扫描程序完整流程.png

图8: 节点扫描程序完整流程

在循环扫描完毕之后会将所有扫描到的MBFP、MBFI和DOC数据块分别写入到三个文件内,用于后续处理。

2、将节点信息导入到数据库

此模块主要负责将ScanNode扫描得到的MBFI和MBFP、Dir存入数据库以备后续使用。

以下是流程:

图片9MBFI导入数据库整体流程.png

图9: MBFI导入数据库整体流程


函数执行完毕后可以查看数据库得到如下信息:

图片10节点导入信息.png

图10: 节点导入信息

Netapp在更改inode节点时不会直接覆盖而是重新分配inode进行写入。单个文件的节点node_uid唯一不变,mbfi_usn会随着节点的变化而增大(正常情况下提取某个文件时使用usn最大的节点)。一般情况下存储划分出的单个节点会作为LUN映射到服务器使用,根据file_size可以确定这个文件的大小,按照文件大小分组后再选取usn最大值的节点,跳转到MBFI文件的offset值偏移位置,取出节点。

图片11节点样例图示.png

图11: 节点样例图示

3、提取文件

在获取到要提取的文件的Node之后,开始提取块设备文件。

程序需要读取配置文件:

图片12提取块设备文件.png

图12:提取块设备文件

初始化完毕后,开始提取文件的各级MAP,在本次提取过程中文件大小均大于1T,MAP层级为4,所以需要提取4次。第一级MAP默认只占用1个块,所以在程序内直接提取,后三级MAP在GetAllMap函数内进行提取。通过块号计算数据块位置时,由于NetApp使用JBOD组织LVM,直接用块号除以每块磁盘上的块数可得到当前块所在的磁盘序号(计算机整数除法,丢弃小数邠);再使用块号取余块数,得到数据块在此磁盘上的物理块号,物理块号乘以块大小,得到数据块偏移位置。


二、块设备文件系统解析

1、客户的块设备5Tlun用的是aix小机的jfs2文件系统。因此要解析jfs2文件系统,提取里面的数据库备份文件。解析lvm。

7扇区记录lvm描述信息,获取pv大小和pv序号,

类似找到vg描述区,获取lv数和pv数,找到pv描述区,解析pp序号和pp数

图片13解析文件系统块信息.png

图13:解析文件系统块信息

LV类型及LV挂载信息区域

图片14lv类型及率挂在信息区域.png

图14:lv类型及率挂在信息区域

1、解析8个1Tlun组成oralce ASM文件系统,提取其中的数据库文件

添加8个lTlun

图片15.png

图15

解析asm文件系统,提取出数据库文件

图片16.png

图16

六、服务器数据恢复验证及数据移交

经过北亚数据恢复中心的工程师对提出出的数据自检后无异常,随后联系客户服务器管理员进行鼠验证,经客户验证,本次服务器数据恢复成度为100%可用,本次数据恢复圆满成功,历时3个工作日。

北京北亚数据恢复中心:40065050646