微盟“删库”引发的灾备思考

最近几年,由于技术人员故意或者有意造成的事故不计其数。2018年3月,Stack Overflow 发布了他们的开发者调查报告,并首次提出了有关道德的问题。对于“开发人员是否有义务考虑代码的道德影响”这个问题,有近 80%的人回答“是”。不过,只有20%的人认为他们最终在为不道德的代码负责,40%的人会在被要求的情况下写不道德的代码,只有50%的人表示在发现不道德的代码时会举报。

突起风波

2月23日晚间,有着“新经济SaaS第一股”之称的微盟出现了系统故障,大面积服务集群无法响应,生产环境和数据遭到严重破坏,商户的微信小程序崩溃,损失惨重。

微盟是微信第三方服务提供商,于2019年1月15日在香港主板上市。3月24日晚间,微盟集团公布上市后首份业绩报告,2018年营收8.65亿元,较2017年同期增长62%,经调整净利润达5083.8万元,同比增长355.3%。经调整盈利7300万元,同比增长213.1%。受时间影响资本市场自然反应最为迅速,事件发生后,微盟市值曾蒸发约12亿港元。

2019年4月,腾讯通过其子公司THL H Limited购入微盟集团9682万股已发行普通股。加上此前腾讯已对微盟集团持有5867万股,腾讯目前共计持有微盟集团1.55亿股,持股比例7.73%,跃升为微盟集团第二大股东。

微盟“删库”引发的灾备思考

25日早间,微盟集团向港交所发布公告称,2020年2月23日19:00左右收到系统监控警报SaaS业务服务出现故障,经调查,24日确定为集团研发中心运维部一位核心运维员工人为破坏,该员工已经被宝山区公安局进行刑事拘留。

微盟表示,2月25日晚上24:00前微盟对SaaS业务生产环境将修复完成,新用户将可继续使用公司的SaaS业务。老用户的数据修复预计将在2月28日晚上24:00前完成。这也意味着老用户的系统修复时间将长达五日。这个时间在众人的眼里似乎特别漫长。这也意味着老用户的系统修复时间将长达五日。这个时间在众人的眼里似乎特别漫长。

这次的“删库”事件给很多公司带来了很大的损失,超过300万商家受到了“删库”事件的波及,而且还要面临很多客户的质疑、巨额的赔偿、竞争对手的调整,还会流失很多客户,甚至许多客户已经开始和其他的平台进行合作,此次事件将给微盟将来的发展造成巨大的阻碍。

美国德克萨斯州大学的较早的一次调查显示:“只有6%的公司可以在数据丢失后生存下来、43%的公司会彻底关门、51%的公司会在两年之内消失。”

另一份针对这一课题的研究报告也显示:在灾难之后,如果无法在14天内恢复信息作业,有75%的公司业务会完全停顿,20%的企业在两年之内被迫宣告破产。美国明尼苏达大学的研究也表明,在遭遇灾难的同时又没有灾难恢复计划的企业中,将有超过60%在两到三年后退出市场。

而随着企业对数据处理依赖程度的递增,该比例还有逐渐上升的趋势。IDC在全球范围内,针对多个行业的中小型企业(员工数小于1000名)的调研显示,近80%的公司预计每小时的停机成本至少在2万美元以上,而超过20%的企业估算其每小时的停机成本至少为10万美元。

公告中对事情的原委进行了阐述,从一定程度打消的部分人的顾虑,但在现在的非常时期,对微盟和商家的损失却是实实在在,“一时没法统计”。

对此,英方软件(英方云)销售总监张彬用“折射微盟灾备机制不健全”来总结,另外,他还提到“很多企业因为各种原因,灾备建设时,往往顾此失彼。”

云灾备趋势不会变

微盟“删库”事件在业界引发了对云灾备的讨论和质疑,众说纷纭。

“微盟‘删库’事件不会影响不会改变云灾备的趋势”英方软件(英方云) CEO 胡军擎说:“英方软件近十年来,旨在赋能企业改变传统的数据及业务保护方式,在灾备、大数据管理、文件共享和云服务等领域为客户提供高效、便捷、富有竞争力的产品及咨询服务,以开放的姿态,与生态伙伴通力合作,为用户的数字化转型之路保驾护航。”

灾备属于数据处理与存储行业的子行业,灾备行业从是否通过云计算方式实现可将其分为传统灾备及云灾备,随着时代数据化、信息化进程的加速,中国企业用户的巨大需求增量意味着未来几年将是传统灾备及云灾备市场容量大爆发的时代。

微盟“删库”引发的灾备思考

灾备行业是近年来伴随着网络、数字化和虚拟化等信息技术的兴起而快速发展的高科技朝阳行业。该行业主要通过向企业用户或个人用户提供容灾的产品、解决方案及服务,从而满足用户在保护和管理数据等方面的需求,实现数据的安全存储、高可用和业务连续性等目标。

在数据备份方面,63%的受访者表示基于云来实现,44%提到了灾备。有预测显示,目前全球数据量以每两年翻一番的速度增长,到2020年全世界需要管理的数据将达到35ZB(1ZB约为1000亿TB)。

云计算、大数据等新技术和应用为该领域提供了新的发展机遇,云计算的核心思想是将大量资源统一管理和调度,向用户提供按需服务。基于云计算技术,灾难恢复系统成本更低,恢复速度也更快。

云计算作为一种按使用量付费的模式,可以提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。胡军擎说:“云计算的使用,可以大幅度减少用户的IT资源与人力成本的投入,同时获得更加弹性和强大的计算能力,对快速拓展业务非常便捷。”

胡军擎说:“大数据就是生产力,数据作为生产资料已经逐渐成为全行业的共识,这必然导致灾备需求的持续快速增长,使得灾备行业成为信息产业中最具有持续成长性的领域之一。

根据赛迪市场调查显示,2005年中国灾备市场规模只有三十几亿人民币,2007年,中国灾备市场规模已经达到73亿。根据IBM的调研,到2020年,全世界产生的数据量将是目前的44倍。中国已经从中央层面重视起数据安全,全国各地智慧城市的发展将为创新创业企业提供巨大的商机。

简而言之,云灾备服务独有的高性能、高可靠性、高扩展性、易维护性、责任风险低以及高性价比的服务特色,为企业和政府数据信息系统“保驾护航。”

灾备智能成为化下一个热点

虽然企业的工作负载变得越来越多,如文档处理、文件分享、邮件、数据库、操作系统、CRM、ERP等等,但各类负载正在向云环境的适应性却在增强,并形成数据中心的工作负载发展的明显趋势。为此,备份及恢复服务供应商对云环境的亲和性、对于云环境的适应能力以及在满足数据中心工作的可扩展性等方面都成为未来该领域的竞争热点。

实现整个IT系统数据安全、业务连续性的智能化管理。灾备智能化将更加满足云计算、大数据时代下数据在不同物理机、虚拟机、中间件、数据库、云平台、不同混合环境下对数据自由流动、保护、分享的实际需求。

微盟“删库”引发的灾备思考

胡军擎说“英方云灾备智能化是一个涵盖智能动态带宽调节、智能弹性计算、智能切换监测等在内的统一灾备系统,它基于英方等灾备企业提供的智能灾备管理平台”。

1) 灾备带宽智能化

在智能灾备的管理下,用户可以根据需要自动调节带宽的多少,比如全备份时需要100兆,非全备份时需要2兆。目前英方联合华为和运营商的CloudOperaIES方案,已经实现落地应用。

2) 灾备

在云灾备的环境下,生产端往往承担较大负荷,比如服务器承载的各种应用,但是在灾备端是没有什么负荷的,只是接受数据,只有当主机发生故障时,备端才需要进行切换接管,备端对CPU的占用资源很少。对于用户而言,智能化灾备可以快速对CPU的数据进行增减,以匹配生产端的业务应用。

3)业务切换的智能化

灾备不仅是数据的复制,还有业务的连续性,这涉及到业务的高可用切换。智能灾备可以监测到业务的停止需不需要切换,让切换更加智能,并且在灾备演练和客户真实发生故障时,都能够达到秒级高可用切换,帮助用户实现RPO与RTO接近理想值。

胡军擎认为:“灾备智能化的目的是为了帮助从业者能够更加便捷、安全、高效地使用灾备产品,无论何种方式的智能化,用户对安全可靠又好用的产品永远不会拒之门外,这是值得所有第三方灾备供应商借鉴的模式。”

“技防+防人”队伍建设正在加快

没有什么架构、系统、安全体系是完美的,哪怕你的系统可靠性达到了99.99%,也不意味着一定不会出错。“不够完美,还可以再好一点”这句话,永远值得回味。

灾备属于小概率事件,但是潜在的威胁一旦发生,用户所遭受的损失是惊人的。

近年来,随着各个行业的业务信息化的快速发展,我们发现作为企业IT部门团队越来越多。目前,金融、证券等有明确监管需求的行业一般会有专门的部门负责灾备的规划建设,其他行业的企业IT部门虽然没有专门负责灾备的组织,但也会有个别IT人员兼职灾备规格建设的工作。

与此同时,对相关灾备人员的资格认证也越来越多,DRI每年都在中国举行CBCP的认证工作,培养一大批BCM领域的专业人才。

微盟“删库”引发的灾备思考

未雨绸缪,有备无患是灾备服务商给用户保护数据安全与业务连续的方案。

众所周知,导致数据丢失及业务故障的主要因素:

第一、难以控制的天灾(火山爆发、地震、海啸、战争等)

第二、无法预料的“人祸”(黑客攻击、误操作等)

第三、信息系统本身的脆弱性(BUG、漏洞等)

从近几年的实际案例中,我们不难发现,虽然造成数据丢失的原因很多,但最大的因素依然是人为的误操作及恶意删除而导致的,这一比例大约占75%。

业内分析人士指出,从微盟的公告看,故障的发现到生产环境的修复大概需要用53小时,用户数据的修复大概需要5天。

反映出微盟在三个方面的重要短板:

首先是员工对《国家网络安全法》等相关法律法规的认识不足,IT部门对《信息安全技术网络安全等级保护基本要求》2.0的重视程度严重不足。

其次,公司对数据审计严重缺失。

最后,在运维和实操中对灾备和灾备演练严重不到位。

在《计算机信息系统安全等级保护数据库管理技术要求》、《企业内部控制规范》中明确提出了对工作人员行职责分离,系统设置了权限角色分离,充分发挥数据审计的安全作用。微盟在公告中表示,员工通过VPN登入内网跳板机进行破坏,显然对他的数据库危险操作并未进行相关审计并得到有效拦截。

近几年,由于技术人员故意或者有意造成的事故不计其数。2018年3月,Stack Overflow 发布了他们的开发者调查报告,并首次提出了有关道德的问题。对于“开发人员是否有义务考虑代码的道德影响”这个问题,有近80%的人回答“是”。不过,只有20%的人认为他们最终在为不道德的代码负责,40%的人会在被要求的情况下写不道德的代码,只有50%的人表示在发现不道德的代码时会举报。

“云计算内部的安全机制相当重要。”胡军擎说:“作为一家长期专注于容灾及业务高可用领域的高新科技企业,时刻关注着灾备领域国内外的最新动态,并在长期的灾备建设实践中总结了很多宝贵的实战经验。”

因此,企业不仅需要从硬件的灾备体系上防微杜渐,更需要从人员思想和习惯上培养灾备意识,做好相应的管理权限分级等工作,逐步完善企业灾备人才队伍和机制体系的建设。

演练在灾备系统变得日益重要

2017年6月1日,《中华人民共和国网络安全法》正式实施。该法从保障网络产品和服务安全,保障网络运行安全,保障网络数据安全,保障网络信息安全等方面进行了具体的制度设计。该法第二十一条、三十四条明确规定关键信息基础设施的运营者应当履行对重要系统和数据库进行容灾备份的保护义务,并在其他条文中规定了相应的处罚细则。

灾备供应商不仅需要提供完善的灾备演练系统,还需要保证灾备演练系统的正常可用。对于已经进行灾备建设的企业,需要充分了解业务系统更新、调整后,原有的灾难恢复预案是否仍然有效;灾备系统是否已经有效更新;

真正发生灾难需要启用灾备系统时,灾备系统的切换时间是否可以满足业务的恢复要求;系统切换流程、步骤是否有遗漏和错误;如何在不影响业务的情况下完成系统回切,并保证系统和数据的完整性等等一系列问题;灾备演练对于检验灾难恢复预案的适用性、有效性,提升灾备系统的实际恢复能

灾备演练是基于不同灾备类别中某一特定的场景而进行的,灾难场景不同、灾备技术复杂度不同,演练的技术过程与周期也不尽相同。具体的演练包括:系统更新、调整,原有的灾难恢复预案是否仍然有效;灾备系统是否需要进行有效的更新;系统切换流程、步骤是否有遗漏和错误;灾备系统的切换时间是否可以满足业务的恢复需要等等。

微盟“删库”引发的灾备思考

常见的三种灾备演练方式包括:

种灾备演练方式包括:

1、 桌面演练

桌面演练也叫“沙盘推演”,是最基础的灾备演练方式。通过对初始灾难恢复预案的一个理论验证,进而测试急响应预案和灾难恢复体系的完整性和有效性,使相关人员了解应急响应及业务恢复流程,全面验证技术及业务管理指挥、流程操作、协调配合等方面的综合能力。

2、 模拟演练

模拟演练以桌面演练结果为基础,由IT部门与相关业务部门参加模拟演练,采用模拟数据和模拟业务系统运行演练。模拟演练的过程高度接近真实灾难发生时的处理过程,通过演练可以

预案的可行性以及增加参演人员对灾难处理过程的感知度与配合的默契度。模拟演练是一种对现有生产环境没有影响的演练方式,由于需要虚拟出较为真实的使用场景,因此在技术上的要求较高。

3.实战演练

实战演练需要灾备中心真正接替生产运行一段时间,是在具体设定的灾难场景下,将业务切换到灾备中心及业务恢复环境,并在完成数据、应用及业务恢复后由灾备系统提供对内对外的业务服务,原来的生产环境可以

作为灾备演练的最高的阶段,实战演练的场景最为真实,更易于发现潜在问题并进一步完善灾备系统,但随之而来的就是演练成本的提高。因此,在实战演练中,也会存在很多挑战,这时,关键是使其理解并支持演练能够周期性地进行,同时发现问题及时改进才是成功的演练(无论是否用到真实环境),应避免流于形式的表演论是否用到真实环境),应避免流于形式的表演。

验证已建成灾备系统的可用性、有效性,通过演练结果来修正、补充、完善灾备恢复预案并为灾备系统的升级建设提供理论依据及数据指标,从而使企业在灾备建设中有据可依,保证建成的灾备系统能充分实现建设的目的、达到建设的目标。这就是灾备演练的意义所在,并敢于考验演练中团队的决策与指挥能力。

未雨绸缪 有备无患 让世界早有准备!

来源:深度围观

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年1月22日
下一篇 2020年1月22日

相关推荐