2020年3月31日的世界备份日又到了,每年的这个时候我们都要强调备份数据的重要性,回顾过往一年的数据丢失和宕机事件。今年以微盟30亿损失的删库事件为警钟,希望企业和组织都可以贯彻数据备份3-2-1原则:服务器、本地存储、异地云存储三份副本。2020年初,微盟就上了热搜,原因是生产数据库被删库了。2月23日19点,微盟出现了大规模系统故障,官方消息称是运维员工在生产环境的“删库”操作引发的。飞来横祸,给2019年刚上市的微盟带来了巨大损失,自2月23日出现宕机以来,微盟市值合计蒸发30.88亿港元,还有300万商家无故躺枪。最后,腾讯云花了168小时“复活”了微盟。为什么用了这么多时间呢?难道他们不备份吗?具体细节我们不知道,但是最大的可能就是,备份也被干掉了,最后只能从磁盘底层扫描恢复数据,这当然需要很长时间了。假如,微盟有良好的备份策略,有灾备规划,做过灾备演练,或许不会损失那么多。最简单有效的数据备份策略就是3-2-1备份原则,即:同一数据至少保留三份,包括原数据;保存到二种以上存储介质上,比如光盘和硬盘;至少有一份异地备份,本地灾难后还可恢复。具体到IDC数据中心环境中,数据备份3-2-1原则就是:服务器、本地存储、异地存储或云存储三份副本,以此实现数据备份至本地、本地同步到云以及灾后快速恢复,最终确保业务连续性和数据资产安全。从根本上看,数据损失事件的层出不穷很大程度上可归因于企业缺乏数据治理意识和理念。正所谓,意识决定思维,思维决定行为。企业应当树立合理的数据治理思维和意识,将其作为企业数据管理策略的核心,从而在数据备份、管理、删除、容灾、演练等方面制定清晰明确的运维团队组织架构、权限划分、审批流程、危险告警机制等。例如,企业运维体系应当实现备份、恢复和删除的“三权分立”,以及备份管理员、监控管理员、审计管理员的“三员分立”。有了合理的数据治理意识和思维,企业才能为各种可预测、不可预测的突发状况做到未雨绸缪,全方位确保数据安全。
世事无常,对IDC数据中心运维来讲,同样是这样。过去的2019年里许多大企业出现宕机,敲响了他们容灾备份的警钟:
一、2019年5月13日,中国电信经历了一次重大故障,持续了将近5小时,后续又持续几个小时。中国电信在其主干网上遭受了严重的数据包丢失,主要是中国大陆的网络基础设施受到较大影响,但是也波及了中国电信的新加坡和美国包括洛杉矶等多个节点,全世界有一百多种服务受到干扰。
二、2019年6月2日,Google Cloud Platform发生了严重的网络中断,影响了美国西部、美国东部和美国中部地区的托管服务。此次宕机也影响了Google自己的应用程序,包括GSuite和YouTube。该宕机持续了四个多小时,几天后,Google就此事件发布了官方报告。ThousandEyes 的优势在于能够实时查看宕机情况,并在更详细的信息公开之前有效地揭示宕机的特点和规模。大约从美国东部时间上午9点开始,相关工作人员观察到试图连接到GCP us-west2-a中托管服务的全局监视器的数据包丢失率达到100%。在GCP美国东部几个地区(包括us-east4-c)托管的站点也看到了类似的损失。
事实证明,部分Google网络完全不可用是由于Google的网络控制平面意外脱机导致的。谷歌后来透露,在宕机期间,一套自动策略确定了哪些服务可以在未受影响的网络中部分访问或不能访问。从云服务中断中获得的最重要的教训是,确保任何云架构都具有足够的弹性措施(无论是在多区域基础上还是在多云基础上),以防止将来再次发生中断,这一点至关重要。可以说即使在云中,IT基础架构和服务有时也会出现中断。
三、2019年6月24日,Cloudflare CDN宕机,在将近两个小时的时间里,一个重大的BGP路由错误对试图访问Cloudflare服务的用户造成了严重影响,包括游戏平台Discord和Nintendo Life。经分析发现,该BGP路由泄漏来自多方因素。DQE是一家传输提供商,是此次泄漏的源头,该泄漏是通过DQE和Verizon的客户Allegheny Technologies传播的。不幸的是,Verizon进一步传播了路由泄漏,从而扩大了影响。
此次重大宕机影响了Cloudflare约15%的全球流量,并影响了Discord、Facebook和Reddit等服务,持续时间约两小时。路由泄漏也影响了对一些AWS服务的访问。该事件的根本原因可归因于DQE使用的BGP优化软件,该软件创建了到Cloudflare服务的路由,而这些路由只能在DQE的内部网络中使用。当这些路线意外地泄露给其中一位客户时,混乱就随之而来了。这次事件再次提醒我们,在以云为中心的世界中,企业要想成功地向用户提供服务,就必须对网络具有可见性。
四、2019年7月4日,连接到Apple网站及其部分服务(例如Apple Pay)的用户经历了长达90多分钟的严重丢包。这个问题导致许多用户无法成功连接到Apple。该数据包丢失是由BGP路由震荡引起的。当一个路由公告被快速连续地(通常是反复)发出和撤回时,BGP路由就会出现问题。此次事件苹果在早期成功阻止了事情的发酵。从这次事件中得到的教训是,宕机不会凭空发生,有时仅根据其时机和环境来判断,即使是严重的中断也可能会被忽视(或者反过来,明明不严重却引起严重的骚动)。
五、2019年9月6日,由于大规模持续的分布式拒绝服务(DDoS)攻击,2019年9月6日,世界各地对维基百科网站的访问中断了将近9个小时。DDoS攻击可以击垮目标网络的基础设施,并在服务提供商网络内部造成拥塞,从而导致数据包丢失。
在事件过程中,世界各地的HTTP服务器可用性显著下降,并且HTTP响应时间急剧增加。许多地区的用户无法建立Internet连接,无法与维基百科服务器进行持续通信,此次攻击造成了高达60%的数据包丢失,这进一步阻止了对维基百科网站的访问。虽然DDoS事件在Internet上时有发生,但组织应该主动了解这些事件的范围和影响,并验证DDoS缓解措施是否有效。
六、12月5日下午5时许,有多个地区网友反映,支付宝出现网络故障,账号无法正常支付、无法登陆、无法收到验证码等;打开余额宝后,不能显示余额,只能显示网络无法链接;支付宝钱包界面显示“网络繁忙,请稍后再试”状况。有用户关注支付宝使用及账户安全情况,并调侃,马上到每个月9号、10号,花呗是不是可以不用还了?5日下午5点25分,支付宝官方回应称,支付宝的机房网络出现了短暂抖动,影响了部分用户的使用体验。一切已经恢复正常,大家的资金和信息安全不会受到影响。
海境超备把数据恢复专有技术融入存储数据安全,所提供的数据保护方案,拥有专用备份存储架构和软硬协同原生架构,安全可靠,高性能设计,构建以数据为中心的存储内生安全能力。围绕数据的全生命周期,实现热数据全容灾、温数据热备份、冷数据温归档和全场景智能融合,保证客户业务不中断,数据不丢失,快速恢复业务,信息长期留存,帮助客户实现法规遵从下的关键数据高效备份,价值数据快速利用,节省数据保护投资。最后,衷心希望各种数据丢失、宕机事件都能越来越少,这需要我们每个人都加强数据保护意识。记住世界备份日,记住3-2-1备份原则!