接踵而来的宕机事件对于云服务提供商和他们的用户来说,2015年的夏天就像当前的股市一样,显得极不寻常和让人心惊肉跳。
在经历了接踵而来的陌陌、网易、支付宝、携程网、艺龙网、招商证券、同花顺、齐鲁证券网络故障之后,2015年的5月被不少圈内人士揶揄为“黑色五月”。然而在“黑色五月”过去之后,宕机事件却并没有就此平息。
2015年6月6日下午,青云的服务商睿江科技机房因雷暴天气引发电力故障,导致青云广东1区全部硬件设备意外关机重启,青云官网及控制台短时无法访问、部署于GD1的用户业务暂时不可用。
2015年6月21日,阿里云香港节点出现全线宕机,业务中断超过12小时,甚至有部分用户数据出现损毁,在业界引发轰然大波。
阿里云事故发生伊始,坊间就传出了令人眼花缭乱的各种解释,包括光纤挖断、电力故障、消防警报等等,不一而足,让一起机房宕机事故演变成了一出“罗生门”。
6月21日晚,阿里云发布公告称,本次故障因香港运营商IDC电力问题所致,阿里云已责成香港运营商尽快完成机房整改措施,规避此类问题的再次发生。
阿里云的香港数据中心服务商名气通则声称,其香港二号数据中心于2015年6月21日上午9点40分因电力故障导致部分客户服务中断。名气通第一时间启动应急方案进行紧急抢修,下午2点恢复部分客户服务,晚上9点50分完全恢复电力供应,客户服务全部恢复正常。
对于这起宕机事故,业内人士普遍表示“难以置信”。因为对于中断1分钟都可能让客户难以忍受的云服务来说,这类故障通常在几分钟之内就能解决,12个小时显然有些不可思议了。
但是,阿里云还不是最惨的。有用户反映,其租用的恒创主机在本次事故中瘫痪超过24小时。对此,我们也许只能用“没有最惨,只有更惨”来形容了。
为什么香港倍受青睐6月21日的宕机事故,将香港数据中心一下子推到了风口浪尖。那么问题就来了:为什么香港经常有台风等自然灾害,但还是有越来越多的企业选择香港数据中心?
总结归纳一番,其原因不外乎以下几点:
一、香港的国际金融中心地位。这一点自然不用多说,只要是想要开拓金融行业客户的云服务商,自然都不会放弃香港。而另一方面,金融行业对计算能力、稳定性及数据安全的要求是所有行业中最为严苛的,因此只要能够搞定这些金融客户,对于云服务商本身也是一个很好的正面宣传。
二、香港的黄金地理位置。作为“东方之珠”的香港,在地理位置方面也有着得天独厚的优势。香港是亚太地区海底光缆集中交汇地区,基础设施完善,通讯覆盖全面,并建有多个世界级的数据中心,可满足国际化用户的需求。这也使得香港除了国际金融中心之外,还俨然有成为亚洲数据中心枢纽之势。
三、香港政府的大力支持。对于数据中心建设,香港政府一直都是鼎力支持,不但在选址、价格等各方面都有各种优惠政策,而且还为很多机房提供了免费的制冷供电。
四、企业的海外业务需求。近年来,包括消费电子、游戏开发、电子商务等众多领域的中国企业,都对拓展海外市场业务有着旺盛的需求,因此将香港作为走出国门的第一站,实在是再合适不过了。
五、减少麻烦和规避风险。除了以上原因之外,还有一点是许多企业通常都不太愿意提及的,那就是可以绕过内地的数据备案制度。
正是因为有着诸多的优势,再加上如今“大众创业、万众创新”的主旋律,所以即使是在发生宕机事件之后,香港数据中心未来还是会有大批创业公司和想要拓展海外市场的企业不断涌入。
宕机事件暴露的问题
长久以来,香港数据中心在云服务商和广大企业用户心目中的形象都非常靠谱。但是这一次的宕机事件,却暴露出了相当严重的问题。
按照阿里云的官方公告,本次故障因香港运营商IDC电力问题所致。但是为了保证数据中心7×24小时的不间断运转,像阿里云这样规模的云服务,名气通应该为其配备两个独立的变电站或者一个变电站二个独立仓位出来的供电线路,也就是双路供电。这样即使其中一条线路出现电力故障,数据中心也可以瞬间切换到另一条供电线路,用户根本察觉不到影响。
就算是遇到了不可预料的重大自然灾害,两条供电线路都被切断,那么也用不着惊慌,因为数据中心可以通过备用的柴油发电机为机房供电。
如果“屋漏偏逢连夜雨”,连柴油发电机也出现了故障……好吧,那就只有靠最后一招——UPS了。不过考虑到大型数据中心不断攀升的功耗,这可撑不了多久。
正是因为有着完备的防范措施,所以在正常情况下像电力故障这类问题,数据中心通常只需要几分钟就可以解决,这也是业内人士对阿里云香港机房断电12小时普遍感到“难以置信”的原因。因此有资深人士推测,在宕机事故的背后可能还有更深层次的因素,譬如出现了难以维修的控电设备故障、备用柴油发电机故障、阿里云与名气通之间的协调沟通不畅导致工作效率较低、修复进度受阻等等。
关于数据中心应该自建还是外包这个问题,业界一直众说纷纭,莫衷一是。就在上个月,针对Zynga先租用亚马逊云服务、再自建数据中心、而后又关闭数据中心重新使用亚马逊一事,我还写了一篇《两小儿辩云:数据中心该自建还是外包?》做了一番调侃。目前看来,在香港宕机事件发生之后,关于数据中心是否应该自建这个话题的争论势必还将继续下去。
什么样的云服务才可靠
身处“互联网+”时代,互联网已经像吃饭睡觉一样,成为了许多人生活中不可或缺的一部分。这在对相关云服务提供商提出越来越高要求的同时,其所要承担的风险也在急剧增加。以金融行业为例,如果某银行系统中断1小时,将直接影响其基本支付业务;中断1天,将对其声誉造成极大伤害;中断2-3天以上不能恢复,将直接危及其他银行乃至整个金融系统的稳定。由此我们不难想见,一旦云服务出现故障,用户将会多么抓狂。
正是因为对业务持续性有着极高的要求,业界对数据中心供电提出了“5个9”的可用性标准,即一年之内保持99.999%的时间不断电。换句话来说,也就是数据中心一年之内断电时长不超过5分钟。不过即使是亚马逊AWS这样的巨头,也很难达到这样高的标准。
为了更好地对不同标准的数据中心基础设施进行区分,国际正常运行时间协会(the Uptime Institute,简称UI)将其划分为从T1到T4等四个级别:
一、T1第一级数据中心:基础类型
T1有计算机电力配送和制冷,但不一定配备架空地板、UPS或发电机。即使有UPS或发电机也是单模块系统,具有多处单点故障。为了进行预防性的维护和维修,一般基础设施每年需要完全关闭一次,在紧急情况下甚至可能需要频繁关机。对各部件的操作错误或自然故障,将导致整个数据中心运行中断。T1数据中心的可用性为99.671%。
二、T2第二级数据中心:组件冗余
T2配备架空地板、UPS和发电机,并具有一些冗余组件,因而引发数据中心中断的可能性小于T1数据中心。不过T2的UPS和发电机的设计容量是N+1且为单回路设计,有单点中断可能。对关键电路和其他基础设施进行维护,需要程序式地关闭设备。T2数据中心的可用性为99.741%。
三、T3第三级数据中心:在线维护
T3可以在不引起计算机硬件运行中断的情况下进行所有的计划性现场活动,包括保护性和程序式的维护、维修和元件替换,增加或减少与处理能力相关的部件,对部件和系统进行测试以及更多活动。使用水冷的大型系统需要两个独立通路提供充足的处理能力和配电通路,允许在一条通路承担负载工作的同时,用另一条通路进行维护和测试。不过操作错误或设施部件自然故障等非计划活动,还是会引起数据中心的中断。T3数据中心的可用性为99.982%。
四、T4第四级数据中心:容错系统
T4需要所有的硬件都具备双路供电,其容错能力不但可以保证任何的计划性活动不会引起关键负载的中断,而且还能为基础设施提供至少可以忍受一次的最糟糕情况——非计划性故障或非关键性负载事件的冲击的能力。这需要同时活动的两条配送途径,通常是双系统(S+S)配置,从电力角度来说则需要两个独立的(N+1)UPS系统。不过根据消防和供电安全规范的要求,还是会有因为火灾报警或启动紧急停电程序而导致的停机时间发生。T4数据中心的可用性为99.995%。
目前常见的数据中心基础设施,其等级大多介于T3和T4之间。而选择亚马逊、阿里云、腾讯云这类IaaS(Infrastructure as a Service,基础设施即服务)云服务提供商的企业,则是租用其提供的服务器,然后自行安装配置各种软件环境。其中作为众多同行学习的行业标杆,亚马逊AWS用的是自建数据中心,功能很强但是价格也偏贵;而由于规模原因,阿里云、腾讯云等国内互联网巨头在香港的数据中心则是租用了合作伙伴的,这种非自建的租用模式对合作伙伴的能力和内部协调效率都是一种考验。最近两个月来一连串的宕机事件也说明,大厂商、大品牌并不一定可靠,构建多IDC的同城灾备或异地灾备系统才是王道。不过包括阿里云和腾讯云在内,其在香港都是单一数据中心,尚未构建同城灾备系统。
有意思的是,阿里云、腾讯云均声称目前正在筹建香港的第二个数据中心。这也从另一个侧面体现了多IDC灾备系统的重要性。
云服务商香港节点对比
俗话说得好:“不怕不识货,就怕货比货。”在本篇文章的最后,笔者列出了几家国内云服务商在香港节点的对比介绍,希望可以为近期想要租用或更换云服务的企业提供借鉴与参考。
一、阿里云
2014年5月12日,作为阿里云迈向全球化的第一站,阿里云香港数据中心正式投入使用,并与亚马逊AWS、微软Azure等展开正面竞争。香港数据中心为Tier3+级别,由阿里云与香港名气通电讯共同建设运营,后者不但拥有多个世界级数据中心,而且具备服务Facebook、YouTube等互联网企业的丰富经验。网络光纤除接通中国大陆外,还包括香港、新加坡、英国、美国及欧洲等国际级电信商,可为香港、东南亚乃至全球用户提供快速、稳定的云计算服务。
二、腾讯云
早在2005年,腾讯云就开始在香港搭建IDC。2014年6月,腾讯云香港数据中心正式启用,并于7月1日香港回归纪念日推出香港云服务器限量开售活动。腾讯云香港数据中心采用的是“租用+定制化”模式和国际BGP线路,主要针对亚太和欧美地区的企业提供云服务,解决企业开展海外业务时遇到的网络服务难题,并且提供本地硬盘,价格相对于其他云服务提供商更具竞争力,用户还可根据实际需求自定义选择机型。在电力供应方面,腾讯云的香港机房具备双路供电、2N设计UPS,机房电力可靠性超过99.999%。
三、UCloud
2013年,UCloud与香港第一大网络接入商HGC和记环球电讯携手正式启动了亚太数据中心的运营,成为中国第一家走向海外的云计算公司。随着近年来海外市场的不断拓展,大批中国移动互联网企业,特别是手机游戏公司都将UCloud云服务作为了首选。目前在UCloud亚太数据中心的客户当中,手机游戏开发者、移动互联网和电子商务领域占到了多数。2015年4月13日,UCloud又与NTT com Asia达成合作,在香港唯一的T4级商用数据中心——香港金融数据中心增设了T4级亚太节点,在香港节点的同城灾备方案上又向前迈进了一大步。
文章评论 本文章有个评论