一:客户信息
四川省某三甲医院
二:案例背景
在信息化高度发达的今天,数据存储的安全性与稳定性成为了企业运营中不可或缺的一环。戴尔DELL EMC作为业界领先的存储解决方案提供商,其SC/SCv系列中高端存储以其卓越的性能和可靠性,赢得了众多企业的信赖。然而,即便是这样优秀的存储设备,也难免会遇到控制器故障,导致逻辑卷数据丢失的紧急情况。本文将通过一个具体的案例,详细阐述戴尔DELL EMC SC/SCv系列中高端存储控制器故障后,如何成功恢复逻辑卷丢失的数据。
三:案例描述
客户反馈其使用的戴尔DELL EMC SC4020(该系列中一款典型产品)存储服务器突发故障,起初登录控制器后无法进入Storage Center,客户联系运维团队后,技术人员想办法修复控制器故障,Storage Center能够正常登录,但是进去以后发现所有逻辑卷都已丢失,数据无法访问。这一突发状况对客户的业务运营造成了严重影响,急需专业团队介入进行数据恢复。
四:解决方案
1.案例评估
1)现象描述
面对这一紧急情况,首先需要对故障现象进行细致分析。通过远程登录和现场检查,我司工程师发现以下几个关键问题:
1.Storage Center控制器故障:虽然控制器被修复,系统能够进入,但是登录成功后,Storage Center界面显示所有逻辑卷丢失,无法对任何逻辑卷进行访问。
2.Data Collector通信失败:Data Collector组件无法与Storage Center正常通信,导致无法获取存储状态及数据访问权限。
3.存储空间报错:所有划分的存储空间均显示错误,无法正常访问。
2)原因分析
出现该故障一般有两种可能:
1.戴尔Storage Manager Client系统出现问题。这种故障情况可以理解为一般台式机电脑系统损坏,无法正常启动一样,同理,戴尔DELL EMC SC系列存储也有着自己的内置系统,并且内置的两个控制器也有独立的操作系统,该系统崩溃或出现问题后,就可以导致能够登录系统界面成功,但是所有逻辑卷丢失的问题;
2.硬盘出现故障,由硬盘故障引起的系统无法访问,需要同一时间损坏3块硬盘,或者是同一时间未知原因同时离线3块硬盘,用户没用及时发现,或没给用户更换硬盘的时间。
2.恢复方案
1)如果是第一种系统损坏的故障情况,可以联系戴尔的售后维修人员,他们会对这个系统进行重装,因为这个系统分外层和内层,如果仅仅是系统损坏的原因造成的故障,硬盘本身没有损坏,直接进行系统重装即可,重装后系统会自动接入内层,这样即可直接访问数据存储层,如图所示:
可以看到重装存储系统后,可以正常的点开下面已经划分的空间,图标带X逻辑卷丢失报错的原因是因为该存储是直接取下来进行重装系统的,这种情况下有两种恢复思路:一是直接按以前的接口把存储重新挂上去连接使用即可,因为内层结构并没有发生改变,直接按以前的接线方式与服务器或交换机进行连接,即可正常使用。二是由于控制器故障,修复后只是可以正常启动,但是无法加载逻辑卷,所以需要重新配置Dell Storage Manager Client主机参数,通过技术手段绕过控制器层,直接通过HBA卡或者FC光纤将划分的空间挂在到需要使用的系统上,实现逻辑卷的正常读取,然后进行数据恢复和提取。
2)如果是硬盘损坏导致的该情况,则需要将损坏硬盘进行物理镜像至新的硬盘内,带校验的需要跳过校验进行扇区对照镜像,即跳过故障盘的校验信息,写入时保留新硬盘的校验信息,进行镜像即可。如果硬盘扇区损坏不是很严重,将按照此方法重新镜像的新硬盘接入存储,进行重启重新配置硬盘,即可通过。如果硬盘扇区损坏严重,又恰好三个坏硬盘上的虚拟化信息没有镜像出来,那么接回原存储也是没办法正常使用的,这种情况下需要将所有硬盘取出,通过专业工具手动解析所有硬盘的虚拟化信息,然后再重组分布式存储的阵列结构,最后再进行数据恢复提取即可。
五:案例总结
戴尔DELL EMC SC/SCv系列中高端存储服务器型号多,售后服务及时,性价比高,所以在国内销量一直不错。但是戴尔服务器的标准保修仅有三年时间,三年后才是服务器故障高频率发生的开始。海境超备技术团队通过以往案例经验积累将戴尔服务器的常见故障总结为以下几种:
1.服务器不开机、黑屏、蓝屏、卡开机LOGO画面;
2.服务器控制器损坏;
3.服务器磁盘逻辑卷丢失;
4.服务器主板损坏进水、雷击、过压、主板老化损坏等;
5.服务器阵列信息丢失;
6.服务器硬盘丢失或者恢复硬盘上线失败;
7.服务器电源损坏;
8.服务器操作系统损坏等。
当数据发生丢失时,海境超备研发团队深入研究各种服务器和系统设计思路,认真对比故障类别,攻克疑难恢复案例,总结成功恢复经验,拥有成功修复服务器数据库,虚拟化平台,分布式存储等数据中心相关的上万个疑难案例。