未来智讯 > 新闻资讯 > 云服务履历的至暗时刻,2018十大云宕机事故盘货

云服务履历的至暗时刻,2018十大云宕机事故盘货

发布时间:2019-01-02 16:15:33 文章来源:未来智讯    
云办事履历的至暗时候,2018十大云宕机变乱盘货
2018 年,云谋略市场不但成长敏捷,并且题目不停。云提供商与开源社区的抵牾不停升级,主流云厂商均未逃过宕机变乱,更有甚者一年出现多次办事宕机,导致企业对公有云的信心连续走低。
来历:亿欧
2019-01-02 11:32


     凭据 IDC 本年 7 月份公布的《中国公有云办事市场半年度跟踪汇报》显现,阿里云的市场占据率已过 45%,腾讯云到达 10%。在环球市场,凭据 Gartner 最新数据显现,亚马逊 AWS 占环球份额的 51.8%;微软 Azure 位列第二位,占比 13.3%;阿里云位列第三位,占比 4.6%;谷歌 Cloud 云办事占比 3.3%;随后是 IBM,占比 1.9%。可见,这几大主流云提供商占据环球绝大局部市场,一旦云办事出现宕机,受影响的企业将不可胜数。
    2018 年,云谋略市场不但成长敏捷,并且题目不停。云提供商与开源社区的抵牾不停升级,主流云厂商均未逃过宕机变乱,更有甚者一年出现多次办事宕机,导致企业对公有云的信心连续走低。本文归纳了 2018 年前十大云宕机变乱,接待列位增补履历过的云办事至暗时候。
    1 月 18 日:谷歌云主动化失效导致宕机
    变乱详情:2018 年 1 月 18 日,谷歌云主动化机制失效,导致其 us-central1 和 europe-west3 两大可用区中的谋略引擎停运 93 分钟。谷歌对此的回应是“网络编程失效”导致 Autoscaler(主动扩展器)办事无法平常运行,该办事失效意味着新的假造机或刚迁徙的假造机无法与其他可用区假造机关联。
    挽回办法:工程团队手动切换到更换使命,以收复数据长期层平常运行。
    宕机时间:93 分钟
    变乱后续:谷歌答应,将来要是设置装备摆设数据过期,谷歌将中止假造机迁徙,数据长期层会在永劫间运行历程时期重新剖析对等体(peer),以便阻碍产生时敏捷切换到更换使命。
    3 月 2 日:AWS 宕机致局部 Alexa 失声
    变乱详情:2018 年 3 月 2 日破晓,依赖 AWS 办事的局部 Alexa 开始出现失声题目,该智能音箱的赤色指示灯连续闪耀证明办事出现停止,Alexa 也一贯发出体系内置致歉声。随后几小时内,Alexa 又接到了成千上万封投诉。据明白,Alexa 这一阻碍源于亚马逊 AWS 的网络办事出现题目,其他依赖 AWS 作为主干网的应用在当天也受到了影响,包罗软件开辟公司 Atlassian,云通信公司 Twilio 等。
    挽回办法:亚马逊 AWS 的在线赞成团队对此举行了修复。
    宕机时间:数小时(因事发破晓,未在第临时间发酵)
    变乱后续:亚马逊 AWS 未对此阻碍举行细致阐明,只泄露与网络相连相关。
    5 月 31 日:AWS 北弗吉尼亚地域数据中央出现硬件题目
    变乱详情:2018 年 5 月 31 日,因北弗吉尼亚地域的数据中央出现硬件阻碍,AWS 再次出现相连题目。在此变乱中,AWS 的焦点 EC2 办事,Workspaces 假造桌面办事以及 Redshift 数据堆栈办事均受到影响。
    挽回办法:人为修复
    宕机时长:30 分钟左右
    变乱后续:亚马逊公司 S3 的副总裁兼总司理 Mai-Lan Tomsen Bukovec 克日接纳采访表现,亚马逊从未见过数据中央瓦解。这意味着,已往的每一次变乱都未曾导致整个数据中央的瓦解,AWS 也在体系计划层面举行了革新以防备此类变乱产生。
    6 月 17 日:微软 Azure 爱尔兰数据中央宕机
    变乱详情:2018 年 6 月 17 日至 18 日,因爱尔兰数据中央的恒温体系出现题目,微软 Azure 被高温影响导致存储和网络停止。
    宕机时间:5 小时以上
    6 月 27 日:阿里云阻碍
    变乱详情:2018 年 6 月 27 日 16:21 左右,阿里云出现庞大技能阻碍,16:50 分裂始连续收复,官方给出的阻碍时间为 30 分钟左右,收复时间大概耗费一小时。通过技能复盘,阿里给出的阻碍因为为工程师团队上线主动化运维新功效时,履行了一项变动验证操纵,该操纵在测试情况中未产生题目,上线后触发未知 bug。
    挽回办法:人工参与,定位并办理题目。
    宕机时间:30 分钟,收复时间耗费一小时左右。
    变乱后续:本次变乱被界说为 S1 级别,即焦点业务紧张功效不行用,影响局部用户,造成肯定亏损。阿里云公布官方声明,表现“对付这次阻碍,没有托辞,我们不克也不应出现如许的失误!我们将认真复盘革新主动化运维技能和公布验证流程,敬畏每一行代码,敬畏每一份托付。”
    7 月 20 日:腾讯云云硬盘阻碍
    变乱详情:2018 年 8 月 5 日,北京清博数控科技有限公司(以下简称“前沿数控”)在官方微博公布了一篇题为《腾讯云给一家创业公司带来的灾祸》的博文,文中证明,2018 年 7 月 20 日,腾讯云云硬盘产生阻碍(腾讯云后期给出的变乱因为阐明),导致该公司存放的数据全部丧失,而且不克收复,这是该创业公司近万万元级的平台数据,包罗通过恒久推广导流积存起来的精准注册用户以及内容数据。
    挽回办法:腾讯云表现,监控到反常后第临时间向用户见告了阻碍状态,并立刻构造文件体系专家并团结厂商技能专家实验修复数据。但通过多方竭力,终极仍有局部数据完好性校验失败。
    变乱后续:腾讯云提议“补偿 + 赔偿”方案,并答应会连续与“前沿数控”保留相同,援助其举行业务收复。
    7 月 24 日:腾讯云宕机
    变乱详情:2018 年 7 月 24 日,用户登录腾讯云时重复出现超时、退出等环境,即便调换运营商,终于也一样。随后,腾讯云公布关照称开端确定是运营商光缆停止,运营商已经找到断点,正在连线中,重要受影响的为广州地区局部用户。
    挽回办法:运营商第临时间参与抢修。
    宕机时间:宕机时间不明,收复时间耗费 30 至 40 分钟
    Prime Day:亚马逊 AWS 阻碍
    变乱详情:Prime Day 是亚马逊在环球范畴内启动的为期 36 小时的会员促销运动,运动刚开始,亚马逊网站及 App 就同时产生严峻宕机,不但电子商务业务受损,亚马逊的其他产物和办事都受到了差别水平的影响。亚马逊对此给出的评释是 AWS 治理操纵台出现环球性题目。
    宕机时间:阻碍连续了快要 6 小时。
    变乱后续:AWS 发言人表现,间歇性的 AWS 治理操纵台题目并未对亚马逊的消耗者业务发生任何故意义的影响。
    9 月 4 日:微软 Azure 数据中央遭雷劈宕机
    变乱详情:9 月 4 日上午,微软 Azure 美国中南区数据中央相近产生雷击在内的卑劣气候,影响冷却体系的电压,导致多个 Azure 办事出现相连题目,客户难以访问存储在该区数据中央的资源。受影响的办事包罗 Office365、Active Directory、Visual Studio Online、Visual Studio Team Services 等。
    挽回办法:9 月 5 日上午,微软工程师已收复数据中央的电力和大多数网络设置,其他办事也在连续收复中。
    宕机时间:超出 24 小时
    11 月 9 日:谷歌公有云下的 Kubernetes 办事(GKE)宕机
    变乱详情:11 月 9 日,谷歌公有云上提供的 Kubernetes 办事(GKE)节点池建置功效出现反常,维运职员无法透过 Cloud Console UI 创建新节点。
    挽回办法:谷歌派工程团队观察阻碍因为,并开始动手修理。谷歌表现,受影响的企业用户能够先改为利用 GCP 内建的 gcloud command,建置新 Kubernetes 节点。
    宕机时间:靠近 19 小时
    归纳:
    对付许多中小企业来说,自建机房的人力和维护本钱太高,他们盼望使用云谋略的低本钱、可扩展性、可靠性和方便性等益处,但却担心面对危害。这些危害常常是雷同的,比方安定毛病、羁系题目,以及缺乏相关怎样构建最好云谋略根本办法的知识。而在已往几年,云提供商还产生过数起大巨细小的阻碍,也阐明企业的担心不是多余的。随着越来越多的企业和当局机构将数据上云,即便不过一个小小的宕机都大概引发很大的灾祸。即即是提供 99.9% 可靠性的阿里云,那 0.1% 的宕机照旧产生了。
    思虑到企业的这些需求,如今混杂云的趋向也对照显然,许多公有云厂商都在结构混杂云市场。借助混杂云,企业在进步生产力的同时还能低落本钱,也不消完全加入到公有云当中。但是混杂云也还存在兼容性和安定合规性方面的挑衅,以是为了尽大概地削减阻碍带来的亏损,企业不但要创建美满的灾备保险体系,还应该对灾备体系举行定期演练。
    2018 年你履历过这些公有云阻碍吗?你怎么看这个题目呢?
    相干阅读
    移动金融期间,腾讯云援助金融机构“媚谄”用户
    云存储安定准则和最好实践
    2019云安定预测,责任中前行
    

转载请注明来源。原文地址:https://www.7428.cn/page/2019/0102/74402/
 与本篇相关的热门内容: