GMTC全球大前端技术大会(北京站)门票9折特惠截至本周五,点击立减¥480 了解详情
写点什么

阿里云出现大规模宕机,原因系 IO HANG,或将做出赔偿

2019 年 3 月 03 日

阿里云出现大规模宕机,原因系IO HANG,或将做出赔偿

事件回溯

据网友爆料,3 月 2 日 23:55 分左右,阿里云疑似出现大规模故障情况,华北相当多互联网公司都炸了,一众 APP 和网站陷入瘫痪,一大波程序员、运营和运维人员都赶去公司加班。晚些时候,阿里云对此作出回应称:华北 2 地域可用区 C 部分 ECS 实例状态异常,导致该区域众多网站和 APP 都无法正常使用,不少公司就此事在微博刊登出回应公告:



阿里云方面暂无确切故障原因并尚未给出具体受影响范围,其工程师正在进行紧急排查处理,并表示如果有进展会及时向用户同步:



对此,不少程序员在微博吐槽,一时之间该话题之下哀鸿遍野。有网友怀疑是部分磁盘出现问题,凡是读写故障盘的系统软件或服务程序均会受到影响。


对于此事,某公司市场总监在微博表示,一直以为阿里云是公有云稳定的代名词,但出现这种事件让没有配套私服的中小公司措手不及,如果有完善的备用方案,不至于出现大规模宕机。



截止发稿时,阿里云方面回应称:服务器等出现 IO HANG,正在处理并将对受影响的客户进行赔偿。


云服务 99.99%的安全性是否靠谱?

据了解,这不是阿里云第一次出现宕机事故。


2018 年 6 月 27 日 16:21 左右,阿里云也曾出现重大技术故障,16:50 分开始陆续恢复,官方给出的故障时间为 30 分钟左右,恢复时间大概花费一小时。经过技术复盘,阿里给出的故障原因为工程师团队上线自动化运维新功能时,执行了一项变更验证操作,该操作在测试环境中未发生问题,上线后触发未知 bug。


本次事故被定义为 S1 级别,即核心业务重要功能不可用,影响部分用户,造成一定损失。阿里云发布官方声明,表示“对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。”


根据笔者统计,仅去年一年,全球主流云计算厂商就曾发生数十起宕机事故,原因更是五花八门,谷歌云曾因自动化失效导致宕机、AWS 曾因数据中心出现硬件问题导致宕机、微软 Azure 爱尔兰数据中心曾因高温和打雷陷入宕机、腾讯云因运营和硬盘故障陷入宕机…


众多安全事故频发,云厂商承诺的 99.99%的安全可靠性是如何定义的?


不久前,笔者曾就云服务的可靠性一事询问阿里云相关技术专家的看法,他表示,云计算厂商得出 99.99%可靠性这一数字是经过验证的,通过客户部署反馈,确实故障率在 0.01%以下。并且,一旦出现故障,云厂商也都有非常完善的容灾方案,目前主流云厂商已经在提供一定程度上的异构灾备能力,比如,阿里云的 3AZ 容灾方案,同城一定距离的地方,用户可以自己搭建跨 DC 方案,技术上能够满足异构容灾需求。如果客户追求极致容灾能力,有可能建设混合云或者采购多家云厂商,架构会带来很大成本压力,但这种选择应该比较少,就好比对安全可靠性要求极高的金融数据库领域,也很少有客户同时选择两种数据库方案。


随着云计算使用量的持续增长,很多企业纷纷开始选择放弃一些控制权,以降低成本。从业界来看,美国大多数互联网企业已经放弃自建数据中心而大规模应用云技术,例如 NetFlix 大规模应用谷歌云服务,专注于专有云和 IaaS 的 Cloudera 和 Hortonworks 合并过冬。


单一云平台被企业大规模应用同时,这也意味着一旦出现问题,给企业带来的损失和影响是巨大的,多云再次成为重要讨论话题。


多云可以解决所有问题吗?

根据 Gartner 调查,2018 年全球公有云市场整体增长为 21.4%,以亚马逊 AWS、微软 Azure 和阿里云为首的全球云计算“3A”阵营占据超七成市场份额。根据 IDC 数据,在中国市场上,阿里云市场份额相当于第 2 到 9 名的总和。在全球市场,阿里云已超过 Google 和 IBM 的云业务。


据统计,目前 40% 的中国 500 强企业、近一半中国上市公司、80% 中国科技类公司在使用阿里云,其数据中心也在全球范围内增长。可见,国内企业选择阿里云较多,这也让单一云平台绑定问题受到用户关注。


中国平安运维部负责人曾在接受采访时表示,很多大企业如今都会分散选择云服务商。一般情况下,小型企业受限于资金或人员等因素,可能会将所有服务放在同一云计算平台,但大多数中型企业还是倾向于选择多个厂商。


就目前的发展现状而言,云计算服务将越来越趋向于标准化,企业可以轻松得在不同云平台之间进行数据或者应用迁移,多云管理的门槛将被大大降低,如何选择云供应商将完全取决于企业实际需求和业务成本。


就目前国内云计算的应用进程来看,多云对企业带来的挑战非常大,具备容灾意识,尤其是重要业务的灾备方案一定要做好,比如依靠 API 快速升级扩容切换服务,配合完善的持续集成部署,完全依靠云供应商的长时间不间断服务是不可能的,云上也有故障率,具备完善的灾备意识是现阶段企业负责任的上云态度。


2019 年 3 月 03 日 08:5119582
用户头像
赵钰莹 InfoQ高级编辑

发布了 704 篇内容, 共 414.3 次阅读, 收获喜欢 2285 次。

关注

评论 1 条评论

发布
用户头像
同城灾备,异地灾备
2019 年 04 月 03 日 23:06
回复
没有更多了
发现更多内容

观察者模式在One Order回调函数中的应用

Jerry Wang

CRM SAP abap

SAPGUI里实现自定义的语法检查

Jerry Wang

SAP abap SAPGUI 语法检查

如何使用Putty登录安装在VirtualBox里的ubuntu

Jerry Wang

ubuntu windows 虚拟机

SAP Fiori里的List是如何做到懒加载Lazy load的

Jerry Wang

JavaScript SAP Fiori SAP UI5

S4HANA和CRM Fiori应用的搜索分页实现

Jerry Wang

CRM SAP Fiori SAP UI5 S/4HANA

如何用ABAP代码读取CDS view association的数据

Jerry Wang

CDS SAP abap CDS view

金融科技如何在产业互联网蓝海中扬帆远航?大数据、区块链与物联网应用被看好

CECBC区块链专委会

如何使用代码获得一个function module的Where Used List

Jerry Wang

CRM SAP abap SAPGUI

高性能 JavaScriptの六 -- 老生常谈Ajax

空城机

JavaScript ajax 前端 5月日更

CRM, C4C和Hybris的工作流简介

Jerry Wang

CRM SAP C4C Hybris Commerce Cloud

人生算法:做事要闭环

石云升

读书笔记 职场经验 5月日更 人生算法

会说话的ABAP report

Jerry Wang

SAP abap SAPGUI

ABAP的语法高亮是如何在浏览器里显示的

Jerry Wang

SAP abap SAPGUI 语法高亮

那些年我用过的SAP IDE

Jerry Wang

ide SAP abap SAPGUI

在浏览器里使用SAPGUI里的SE80

Jerry Wang

JavaScript SAP abap Fiori SAP UI5

如何给VirtualBox虚拟机的ubuntu LVM分区扩容

Jerry Wang

虚拟机 Cloud virtualbox CloudFoundry

设计千万级学生管理系统的考试试卷存储方案

俞嘉彬

架构师训练营 作业四

开拓纪

ABAP git客户端的简单介绍

Jerry Wang

GitHub SAP abap

如何使用腾讯云提供的云主机

Jerry Wang

腾讯云 云主机 Cloud

架构实战营 - 模块四作业

Sun

如何将iso文件安装到Virtual里的ubuntu去

Jerry Wang

Linux ubuntu windows 虚拟机 Windows 10

ABAP宏的调试

Jerry Wang

调试 SAP abap macro

ABAP和Java里关于DEFAULT(默认)机制的一些语言特性

Jerry Wang

SAP abap Netweaver SAPGUI

如何在ubuntu上安装virtualbox的driver module vboxdrv

Jerry Wang

ubuntu 虚拟机 vboxdrv 驱动

如何使用SAP Cloud for Customer里的ABSL代码调用Web service

Jerry Wang

SAP C4C Cloud for Customer

优化docker镜像的几种方法

运维研习社

Docker 镜像 优化技巧 5月日更

S/4HANA for Customer Management里的搜索分页处理

Jerry Wang

CRM SAP abap S/4HANA

如何证明CRM WebClient UI上的应用是有状态(Stateful)的

Jerry Wang

CRM SAP abap WebClient UI

CRM订单状态的Open, In process和Completed这些条目是从哪里来的

Jerry Wang

CRM SAP ERP abap

如何在Chrome development tool里查看C4C前台发送的未经 GZIP 压缩之前的请求细节

Jerry Wang

chrome SAP C4C Chrome开发者工具

阿里云出现大规模宕机,原因系IO HANG,或将做出赔偿-InfoQ