智能化的数据中心到底该如何建设?
随着AI、大数据时代的到来,数据中心的业务也不断在演变,新的技术不断的融入到数据中心。这其中,智能化的数据中心包含两方面含义。
一方面是数据中心如何基于海量数据,利用人工智能的技术,进一步去优化数据中心的运营;另个方面是数据中心会越来越多地去承载大数据的业务,去承载人工智能训练的场景以及人工智能应用的场景,在这个场景下数据中心自身需要去适应新的智能化业务的需求。
智能化数据中心发展的三部曲
在中国电信北京研究院副总工程师杨明川看来,智能化的数据中心的发展可以被归纳为三个阶段。
在当前阶段,除了传统的以CPU为核心的数据中心外,还要考虑人工智能的需求,比如:建设CPU和GPU联合的资源池以及建设开展面向边缘计算场景的FPGA等计算的资源池。在这一过程中,AI驱动的数据中心节能、AI驱动的计算、存储和网络的自动化优化和智慧运营以及AI驱动的巡检机器人等等,特别是在面向运营商特有的NFV场景中的一些故障的监测、排除等,这些都是当前的智能化数据中心正在面临的新需求、新挑战。
到了下一个阶段,则会提出更高的统一和融合化的需求,包括边缘和核心的统一以及AI和各个系统的融合、标准化和物联网化。尤其是未来整个数据中心在边缘,甚至在边缘的设备和边缘的数据中心之间,它们进一步的统一和融合,也是未来我们需要重点考虑的地方。
而在最终阶段,则是希望能够实现完全自动化的数据中心。
四方面助力智能化数据中心建设
对于运营商来讲,现在这个阶段去构建智能化的数据中心也面临着很多的挑战,包括在基础设施层面的改造、如何去适应人工智能和大数据一些新的业务需求、怎么提供更丰富的API接口以及更多的数据存储。
对此,中国电信正在积极思考在未来智能化的数据中心里可以做一些什么样的探索。“我所在的中国电信北京研究院做了一些尝试,主要包括四大方面。”杨明川讲到。
首先,第一个方面是智能化的数据中心节能技术。很多专家也都讲过在物理基础设施层面,可以开展很多节能方面的技术研发,引入很多节能相关的设备,从而降低我们数据中心的能耗。
针对此,杨明川主要介绍了一个纯软件的方法,它的思路是对数据中心尤其是云数据中心的服务器资源进行调度,也就是说我们更多是考虑服务器在承载业务时,随着业务需求的变化,怎么通过人工智能的方法去预测这些服务器资源使用的效率以及未来的负荷,进而通过智能化的调度来使得部分的服务器休眠得以降低其能耗。
“这里面我们需要大量的数据采集,从数据中心里面去采集各种各样的包括从云主机、物理主机、能源消耗、业务变化层面上的各种各样的数据,然后去构建基于深度学习的预测模型,使得我们能够通过动态负载调整去降低能耗。”杨明川说。
据悉,中国电信已经在几个省公司做了智能化节能的尝试,在这个过程中中国电信也采用了一些渐进式的方案,当前已经能够在无人值守下实现节能。平均下来大概能实现20-30%的节能,而且对于云数据中心还能有更大的能源节省空间。
第二个方面的案例是服务器定制,服务器定制和智能化数据中心的演进是一脉相承的。其中,中国电信早期定制的是整机柜的服务器、单机的服务器,到2015、2016年则是超融合的定制化的服务器,以及低功耗的定制服务器。在2017年考虑的主要是ServerSAN领域的定制服务器、NFV的定制化服务器以及面向人工智能的GPU定制化服务器。今年,中国电信又拓展新的领域,比如说针对边缘机房条件定制的服务器。
杨明川表示:“随着数据中心业务的发展,服务器层面必须要适应相应的变化,开展新的类型的服务器定制工作。这块工作和ODCC的工作是相互配合、相互促进的。”
第三个方面则是在数据中心里构建人工智能的PaaS平台,这块工作目前主要是在中国电信的云计算实验室做一些尝试。面向人工智能的PaaS平台有两类:一类是面向公有云的,一类是面向行业的。
目前,中国电信已经搭建了一个面向AI的能力中台的基础架构。这个面向人工智能AI的PaaS平台,在面向一些行业的智能化解决方案里就能够去发挥作用,使得以AI为核心的行业解决方案成为可能。
第四个方面则是AI辅助智能运维。当前,原有的运维方式正面临很多挑战,比如:虚拟化之后的IT架构,跨计算、存储、网络的端到端运维工具,容器、微服务和虚拟化的应用,以及多厂商集成等问题。
中国电信正在尝试去构建一个AI智能辅助运维系统,研究如何从数据感知层面、故障诊断层面、故障预测和故障自愈层面,如何能够更加充分的运用大数据、人工智能的技术,使得整个数据中心的运维工作更加智能化、自动化。
当然,数据中心智能化的道路刚刚开始,未来还有大量的工作,业界都需要进一步研究和进一步合作,相信未来的数据中心能够具有更高的智能。