懂行的看门道

不懂行的看热闹

【Ps:蚂蚁金服,或者保险性质公司,能整个云服务安全险吗】

阿里云又又又又,又出故障了。3月3日,有众多网友发现阿里云疑似出现大规模故障情况,使得多家互联网公司网站和APP瘫痪。

阿里云认错承诺尽快赔偿:
阿里云宕机这一次发生在午夜。3月2日23时55分左右,阿里云开始出现大规模故障,华北相当多的互联网公司都炸了,APP、网站全部瘫痪,一大波程序员和运营、运维专员都从被窝爬起来去公司干活了。
58高级架构师沈剑在文章中回忆称,这场宕机事故持续了三个小时左右,事后观察了两个小时。
虽然阿里云承诺尽快处理赔偿事宜,但阿里云并未公开详细的赔偿细节。不过,在阿里云开发者论坛上,曾有网友回复称,赔偿方案通常根据包年包月预付费模式和按量付费模式等有所不同,按每台故障时间的100倍赔偿,赔偿总额不超过支付的单台云服务器费用总额。

互联网厂商云服务宕机时有发生:
Gartner数据表明,云计算占全球总IT支出的规模正在不断增加。从2010年的1.99%,上升到2018年的8%,而未来几年向云转移将会直接或间接影响超过1万亿美元的IT支出。
这其中阿里云占据了中国市场半壁江山。市场研究机构IDC日前公布的2018年上半年中国公有云厂商市场份额数据显示,阿里云占43%,腾讯云占11.2%,中国电信占7.4%,分列前三。
根据阿里云的官方描述,阿里云在中国公共云市场占有率超过第二名至第五名公司的总和,目前中国有40%的网站都在阿里云上运营,一半独角兽公司也在使用阿里云。
无疑,阿里云在中国市场叱咤风云,然而成绩越大,责任就越大,尽管多家云服务商仍在承诺99.99%的安全可靠性,但自2009年创立以来,阿里云就已出现多次故障。

2012年10月30日,由于电力故障阿里云部分服务器30余分钟无法正常访问,事后阿里云为此次受影响的用户统一提供百倍赔偿。

2013年1月18日,阿里云机房发生临时故障,部分用户服务器无法访问,20分钟修复。

2013年1月23日,阿里云发生网络系统故障,OSS服务无法正常进行,故障持续长达6小时。

2014年11月14日,由于市政施工导致运营商光纤受损,阿里云杭州可用区D网络故障,受此影响,当天不少P2P平台网站无法打开。

2015年6月21日,一些使用阿里云香港数据中心的用户反映,其服务出了问题,服务中止12小时。对此,阿里云公告称因运营商电力问题造成香港机房故障。

2015年9月1日,多位用户曝出,运行在阿里云上的系统命令及可执行文件被删除,严重影响线上服务及运维。虽然阿里云官方声明称,是由于云盾升级触发bug,导致少量文件被系统误删除,并将立即启动百倍时间赔偿,但9月3日,阿里云云盾负责人吴翰清撰文称,事件原因是“工程师粗心大意写错一行代码”,并向受影响的用户道歉。

2016年7月6日,阿里云北京机房内网发生故障,导致大量互联网公司业务受到影响。故障持续长达1小时。

2018年6月27日,阿里云出现大规模访问异常,图片服务等产品无法正常使用,官网账号也无法登陆。阿里云内部人士曾透露,此次故障并非宕机,而是账户登录异常,云服务器不受影响。

事实上,不仅阿里,几乎一年发生一次故障,仅2018年一年,全球主流云计算厂商曾发生数十起宕机事故。

2018年1月18日,谷歌云自动化失效导致宕机,宕机93分钟;

2018年3月2日,亚马逊AWS宕机致部分Alexa失声,宕机数小时;

2018年5月31日,亚马逊AWS北弗吉尼亚地区数据中心出现硬件问题,宕机30分钟左右;

2018年6月17日,微软Azure爱尔兰数据中心宕机,宕机时间5小时以上;

2018年7月16日,亚马逊进行“Prime Day”会员促销活动之际,网站发生约一小时故障;2018年7月20日,腾讯云云硬盘故障,宕机半小时左右,导致创业公司数据完全丢失;

2018年9月4日,微软云 Azure数据中心因高温和打雷宕机,宕机时间超过24小时;

2018年11月9日,谷歌公有云下的Kubernetes服务(GKE)宕机,宕机时间接近19小时。

云服务宕机时间过长,会给企业级用户造成巨大损失,此外更影响着千万亿万普通用户的网络体验,可以说每次云厂商出现故障(即使是很小的故障)也会在网络上引起轩然大波。

有不出问题的服务器吗?

没有。

那为什么股票交易、银行等都几十年如一日的稳定?

因为花钱多。

这是说花钱多就能不出问题吗?

不是,是让你感知不到问题。

花钱主要是为了做应急备案,这种冗余平时意义不大,遇到问题的时候价值很大。

阿里云是目前国内最大的公有云服务提供商,从技术到份额都是如此,算是国内做的最好的了。换私有云呢? 就是你自己搭服务器也避免不了这个问题,甚至你自己搭服务器可能遇到的问题更多,2019年了就不要再担心云 的问题了。

由这件事引出的思考是以下几个方面,大公司和小公司都可以参考下:

99.99%的可靠性真的不能保证永远不出事
现在市场上多家云厂商介绍产品时提出99.99%的可靠性、高可用性、安全性,通过部署反馈,故障率的确在 0.01%以下。 即使这么小的概率,还是可能会发生云故障的,很多云厂商都发生过故障,其实重点是发生故障 后的解决方案,重点在于容灾方案的有效性。 所以对于大公司来说,可以自建机房来降低故障率,但是相应的成本会增加,有利有弊吧。对于小公司,可以 将云上的数据等分多地域部署,建立有效的容灾方案、应对方案。也可以选择多个云厂商,正所谓鸡蛋不能放 在一个篮子里,可以把不同业务模块放在不同的云厂商服务上。

2.云需求仍在增长中

从整体来看,云计算取代旧有IT部署模式已成为产业共识,尤其是按需付费的公有云更是对IT成本最有效的节 省。Gartner研究报告预计,2017年到2020年公有云行业增速将维持在15%以上,2020年将达到3834亿美元 的规模,而云代替的总规模也将达到2160亿美元。 云厂商巨头阿里云、腾讯云、UCloud等都在各个行业扩张自己的业务,利润上也在每年上涨,对于小公司而 言,更适合上云,无论是 IT基础设施的可靠性还是减少成本来看 。

3.增加自身IT实力 ,面对不可靠性

以上这句话不仅是针对云厂商,也是针对小公司,道理我们应该都明白 。