2014让人防不胜防的云宕机:Azure为何如此不靠谱

来源:TechTarget中国  
2015/1/29 16:21:33
云断电难免发生,但对于象AWS这样的主流厂商来说,并不常见。看看Azure、Google、Rackspace和其他IaaS供应商在2014年的表现。

本文关键字: 云宕机 Azure AWS
云断电难免发生,但对于象AWS这样的主流厂商来说,并不常见。看看Azure、Google、Rackspace和其他IaaS供应商在2014年的表现。
 
今年的云断电数据表示,越来越多的成熟公有云可以更好的避免云断电发生,但还是有些出乎意料的情况出现。
 
云厂商不断的在他们的平台上倾注大量的资金和策略以增加可靠性。扣除那些低端的公有云,运行时间已经大为改善,但有一个主要的例外,一家位于波士顿的云咨询公司云技术合作伙伴的高级副总裁David Linthicum说到。
 
“虽然公有云供应商扩张的很快,他们似乎在经营他们的业务上也变得越来越聪明,可能除了微软以外,因为微软还是犯了些很愚蠢的错误,”Linthicum说道。
 
在众多大型公有云厂商之中,Amazon EC2在过去一年保持了最长的运行时间,在全球所有区域内总共只停机了2.43小时,据CloudHarmony指出。CloudHarmony是一家位于加州Laguna Beach的公司,负责第三方独立的监控云厂商运行时间。
 
微软Azure,在11月18日有过众所皆知的跨区域大断电,在众多大型厂商之中有着最长的,接近40小时的计算服务断电时间,根据CloudHarmony的说法。
 
“有些服务已经运行了较长的时间并且比其他的服务更稳定一点,这是因为它们已度过了粗糙和不稳定的阶段,解决了比其他服务更多的问题,” CloudHarmony的创始人Jason Read说道。
 
运行时间的改善多半归功于经验,额外的数据中心用作故障转移,更多的自动化,更好的内部沟通和更快发现导致断电的规律的能力,Linthicum说道。
 
供应商们花费大量的金钱来维护他们的服务并变得更积极主动,因为一连串的断电事件将成为企业购买云服务时考虑总体拥有成本的首要因素。
 
AWS表现最佳
 
根据他们的合作伙伴表示,亚马逊Web服务(AWS)在之前几年有过备受瞩目的断电事件,但在今年,这方面却完全无声无息。
 
“我们有过一些服务影响及一些缓慢的状况,但就我所知我们没有一个客户有遇到停机的情形,”一家位于华盛顿州Liberty Lake的云咨询公司,Amazon的合作伙伴,2nd Watch的CTO Kris Bliesner说道。
 
这家公司原本计划开发一个可以替他们顾客在断电时作为早期预警系统的应用。但这个计划现在已经在他们的开发列表上优先级降到最低,Bliesner说道。
 
“我们只是不再看到那么多断电了,”Bliesner说。
 
某种程度上,这很可能是因为AWS已经发展出设计大规模并高度可靠的基础架构的能力,并度过了成长过程的痛苦时期,那些现在正影响着其他那些不太成熟的云供应商,Bliesner说道。
 
这正是从AWS副总裁兼杰出工程师James Hamilton那里传达出的讯息之一。Hamilton在今年的re:Invent大会上展示了Amazon的大规模创新。
 
Amazon已经开始设计他们自己的网络,存储和服务器设备,而这使他们的成本下降并增强了可靠性,Hamilton说道。
 
“企业总是对网络设备供应商提出许多复杂的要求,而供应商则将所有这些复杂的要求汇总成数千万行的无法维护的代码,而那就是我们最终得到的东西,”Hamilton在他的演讲中说道。“我们不用所有的那一整套东西。。。为什么我们的设备比较可靠的原因是因为我们没有选择去解决那么困难的问题。”
 
Amazon对于每周不断加强他们的基础架构监测指标是近乎“信仰性”的,而这也加强了他们的可靠性,Hamilton说道。AWS的可用区(AZ)系统将多个数据中心连接至数个AZ里面,而这些AZ为了保持高可用性都有同步镜像处理。例如关系数据库服务(RDS)的服务都有提供多AZ复制的功能,增加了数据被重复冗余存储地点的数量。
 
AWS的客户也从经验中学到关于要创建更有弹性的应用。当RDS被第一次推出,26%的客户使用了多AZ复制的功能。这个数字现在已经增加到了40%,而目标是增加到70%,据Hamilton说。
 
在AWS云系统中的新数据库,例如Aurora,则提供了更强的弹性。这个弹性源于AWS对于数据库底层的存储引擎的重构,而这个引擎存在于Aurora内部与主数据库完全隔离,这样在错误时便能够很快速的恢复。Aurora也会将数据复制三次,在AZ间创建六份拷贝。
 
Amazon的数据中心设计也经过不断改良来提供最佳的可靠性,根据Hamilton的说法。数据中心最多可存放5万到8万个服务器。
 
“我们可以很轻松的构建更大的数据中心,但是……越大就越有风险,万一出了什么问题,损失将会是巨大的,”Hamilton说。
 
因为AWS从经验中学到如何在它们规模化的同时优化可用性,那些较晚涉足基础架构即服务(IaaS)市场的AWS竞争者们可能还是会遇上过去Amazon常发生的那些众所周知的断电事件,根据Bliesner的看法。
 
“在某种程度上来说,如果Azure或Google想要竞争,他们就必须要做出可扩展性的飞跃,而客户是否会在那个扩展的过程中面临更高的断电风险呢?”他说道。“我的猜测是会。”
 
但是,Amazon在一个领域上是落后于Google云的。Google云存储发生过八次断电,总时长为14.23分钟,而Amazon的S3发生过22次断电,总时长2.66小时,根据CloudHarmony的说法。没有什么可以万无一失
 
级联错误会发生,而当公有云供应商碰上大断电时,基本上都是因为人为错误,而不是硬件基础架构故障,一家位于康涅狄格州Stamford的Gartner公司的分析师Jonah Kowall说道。
 
“虽然他们用了所有最佳的办法来避免这些问题,但在一个不断变化的复杂系统里, [断电] 就是会发生的,”Kowall说道。企业通常来说总是反应慢了些,因为他们难免会过度设计他们的基础架构和流程,Kowall说道。云带来了一种有点像“第22条军规”那样的自相矛盾的状况,因为云的吸引人之处在于速度和敏捷性,但较短且没经过仔细审查的更新周期会带着错误,从而为顾客制造出问题,他补充道。
 
定期重启通常是计算停机的原因,这也暗示了一个管理不良的基础架构,Read说道。
 
“厂商总会有断电的时候,”Read说道。“而好的厂商会完整的调查,找出根本原因是什么,通过改变策略或软件来保证这种同样的事件不会再度发生。”
 
而从这些错误中学习往往会有助于跨平台,根据Paul Voccio,Rackspace Hosting的软件开发副总裁表示。
 
“随着这个产业的不断成熟,每个人都在互相学习要如何规模化的运营他们的服务器,并且以可提供支持的方式,”Voccio说道。
 
在Rackspace位于圣安东尼奥的总部,Voccio在他桌前有着两面巨大的屏幕来监测公司公有云的数据。而当其他云的新兴领域受到更多关注时,几乎没有什么能和保持运行时间在公司内部所受到的关注一样。
 
“顾客们是真心期待我们能够时时刻刻保持运行的状态的,”Voccio说道。“而我们也对此非常重视。”
 
Rackspace,声称从2009年开始就保持着在所有数据中心都有99.999%的运行时间,他们每周都举行会议来讨论系统性能并确保定期的维护不会产生冲突。这家公司非常重视他们数据中心的弹性和冗余性,并了解到隔离集群对于快速诊断问题和确保问题不会影响到其他的数据中心来说是非常关键的,Voccio说道。
 
Rackspace的计算云在过去一年全部区域的断电时间为7.52小时,据CloudHarmony表示。这家公司成为了焦点,当他们遇到一个Xen 虚拟机程序的bug而不得不重启的时候,外界对于他们处理该事件的方式给与了批评。
 
很难告诉客户我们遇上了一个必须解决的问题,但客服不能和他们说,因为公司禁止谈论,Voccio说道。
 
Rackspace常常拿他们所谓的狂热技术支持来做为其品牌特点,但Voccio提到,他跟同事们说,如果顾客在不用寻求技术支持的帮助前就得到他们想要的,那不是更好吗。
 
“虽然,是的,我们总是很乐意为大家服务,但大部分客户都希望他们永远不需要打这个电话,”Voccio说道。
 
透明度仍然是障碍
 
供应商们确实在他们的网站上提供了几周的运行信息,但是TechTarget联系到的厂商没有一家提供年同比的数据。
 
厂商们对于公开信息持犹疑的态度,有些连提到何时系统有小错误或者部分断电发生也不肯,Read说道。而状态页面的可靠性也可能有问题,加上如果供应商们托管他们自己的网站,一次断电将会清空供客户查看的监控仪表板。
 
“我们看到的部分问题是,许多著名的企业云提供商限制了你能够验证他们是否正常工作的能力,对于SaaS来说,尤其如此,”Kowall说道。
 
大多数人试图通过软件从世界各地每隔几分钟登录,进行几个操作来模拟用户,以确保功能正常,但厂商们不喜欢这样,因为这会增加系统额外的负担,Kowall说。厂商试图通过合约来限制这种行为,而更有可能的是,他们不希望人们让他们为稳定性负责,这就是问题所在,他补充说。
 
“你必须同他们协商,在他们系统内你的哪些行为是允许的,”Kowall说道。
 
厂商们应该要做得更多来增加云的透明度,这样顾客才知道系统里发生了什么,Rackspace的Voccio说道。
 
“客户想要了解更深层的信息,”Voccio说道。“这会让厂商更加犹豫,所以我们正在研究方法为整个系统提供更高的透明度。”
 
Google拒绝接受采访,但是发表了一个声明,称公司致力于让Google云平台可靠。
责编:李玉琴
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
IT系统一体化时代来了

2009年Oracle 用Exadata服务器告诉企业,数据中心的IT服务一体化解决方案才是大势所趋,而当前企业对大数据处理的..

高性能计算——企业未来发展的必备..

“天河二号”问鼎最新全球超级计算机500强,更新的Linpack值让世界认识到了“中国速度”。但超算不能只停留于追求..

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918