60天四大云巨头挂机
24日上午,腾讯旗下云计算服务在广东地区宕机,导致部分用户资源访问失败,控制台登录异常,多家网站无法访问。故障持续3个小时,目前,此次故障带来的损失及其用户赔偿问题尚无定论。据悉,该事故系运营商光缆中断所致,截止昨日11时40分,腾讯云表示故障已经恢复。
然而,这不是个案。一个多月时间里,接二连三地爆出了一桩桩惊心动魄的事故:
6月初,北京亦庄某数据中心机房柴油机发生起火;
6月28日,阿里云官网控制台和使用部分产品功能出现问题;
7月17日,AWS管理控制台间歇性失灵;
7月18日,谷歌云平台全局负载均衡服务发生中断;
……
以阿里云故障为例,其事后声明直指,这也是其在运维上的一个操作失误。结果导致阿里云的多个产品在约1个小时期间均无法使用,有用户直言:中国互联网半壁江山,惊魂整整一小时!
看来,高温模式之下,数据中心与云计算领域也在经受着前所未有的运维考验。
智能化自动化运维,并非无人介入,还要借力人工智能
运维无小事,尤其是对于充当重要基础设施角色的数据中心而言,运维工作更是丝毫不能懈怠。近十多年来,数据中心已从只有UPS、空调和IT设备的普通机房时代,进入到囊括各种新技术和应用的新时代。这样一来,规模化之下,风险集中,数据中心的运维管理面临更大的挑战,运维难度也“更上一层楼”,特别是面对不断扩充和升级的数据中心,基础设施安全、稳定的运行显得日益重要。
在数据中心领域,讲究的是“三分技术,七分管理”。因此,数据中心如何减少人为参与的机会,并对人为行为进行科学管控,正是当下运维工作的重中之重,而近年来建设投产的新一代数据中心往往对此颇有发言权。
如今,大数据、物联网、自动化和机器学习等创新技术改变了数据中心传统的运维管理模式。新一代数据中心运维离不开信息系统的支撑,建立一套高度智能化的信息系统,是提高运维效率、实现运维智能自动化的关键。
- 上一篇:鹏博士:企业云迁移需要落实问题 2018/7/28
- 下一篇:北京电信通网络状况分析 2013/3/26