监控公共云基础设施及其服务
受到加速创新、降低成本和提高灵活敏捷性等机会的诱惑,使得当前的许多企业高管们纷纷都选择将其企业组织的应用程序迁移到公共云环境中。但企业组织究竟是否能够尽可能最大程度地实现上述这些优势,部分将由企业现有的监控能力决定。在本文中,我们将为广大读者诸君详细介绍云环境可能带来的监控方面的挑战难题,并还将同大家共同探讨企业组织所需要采取相应关键方法,以推动实现在云中的最大服务水平、效率和灵活性。
概述
当企业组织寻求在当前的应用程序经济大环境下获得竞争力时,许多企业组织越来越依赖于公共云服务。现在,企业组织可以可靠地利用云产品提供各种基础设施服务,包括计算,存储和应用程序。以下,是一系列云服务兴起,并迅速成为引人注目的替代方案的原因。
一、灵活敏捷性推动创新
在当前的应用程序经济大环境下,应用程序的创新快到不能再快了。企业客户和最终用户迫切需要更强大的功能和更好的体验。
鉴于企业的领导者们试图加快将他们创新型的新服务推向市场,他们必须摆脱传统的IT方法。当他们需要扩展IT容量能力时,他们没法再耐心等等待冗长的采购、测试和部署周期。
通过在公共云环境中运行工作负载,企业组织可以实现灵活敏捷性的显著提升。他们可以更快速、更轻松地扩展其容量,从而可以立即适应新的应用程序和服务。如果需求下降,他们还可以相应地立即减少其占用的空间。
新的服务器或服务可以按需提供,这意味着企业工作人员的时间不会再消耗在采购和安装中。通过利用云环境,企业内部的员工们可以花费更多的时间和精力将新的以应用程序为中心的创新投入市场,并且可以更快地将这些创新推向市场。
二、运作效率和预算的灵活性
鉴于企业在市场中的竞争变得日益激烈,各种规模的企业组织都面临着以最有效的方式利用资源的压力。通常,他们承担不起扩大其基础设施容量能力所需的周期性的大量的资本支出;也负担不起与重新分配基础设施资源,以应对不断变化的市场条件相关的成本和中断。
基于云的基础架构服务提供了一种令人信服的方式来缓解这一挑战。通过利用按需弹性云服务,企业组织可以摆脱与内部部署基础设施相关的大量的前期资本支出,转而采用由业务预算而产生的现收现付服务。这也允许企业组织得以能够根据业务目标的变化来重新确定IT资源的优先级。
公共云的关键监控挑战
随着企业组织将越来越重要的业务服务迁移到公共云环境,确保其客户和用户获得优化的体验变得至关重要。然而,当在公共云中运行应用程序时,跟踪进度和管理性能和服务水平可能会给IT企业组织带来诸多方面的挑战。
一、对云服务及其运行过程缺乏全面的、可操作的见解
当企业组织将工作负载迁移到云环境中时,其IT团队通常会通过利用其云服务提供商的监控工具来启动。通常,云服务供应商的监控产品并不是专门的监控解决方案。这些工具缺乏管理员主动管理在云中运行的工作负载和进程的性能和服务级别所需的许多功能。
在使用一款公共云服务时,企业组织通常将注册特定的基础设施产品,如计算、存储等。云服务提供商的工具只会为这些资源提供监控指标,从而导致了只有非常窄的可见性。例如,一款工具会告诉你,CPU利用率是60%,但是其不会提供任何关于哪个进程或服务对该利用率负责的相关细节。
此外,许多这些工具限制了IT团队进行历史性能分析和未来容量规划的程度。这些工具通常只提供初步的报告,只能让客户在短时间内保留监控数据。因此,依靠云服务提供商的监控工具的零售商将难以追踪季节性趋势,因为它们无法评估年度统计数据。
从根本上说,云服务供应商的工具缺乏有效监控服务水平的能力。因此,很难有效地衡量针对SLA的云服务的性能,并使服务提供商对所提供的服务级别负责。
二、对迁移生命周期的洞察见解有限
随着企业组织将应用程序和工作负载迁移到云端,他们需要确保这些迁移可靠地发生。为此,有效地跟踪开发和生产中的工作负载的性能是相当重要的。通过这样做,员工们可以最有效地确保不会出现任何错误或性能问题。最终,他们需要能够比较生产前期和生产后期的性能指标,以便他们可以继续优化服务水平,并从云中实现最大的收益。
三、云和混合IT环境的多监控工具的复杂性加剧
尽管对于云服务的采用正在迅速增长,但现实情况则是,大多数企业组织今天所采用的都是混合的方式,在云中运行的某些工作负载,同时还在企业内部部署环境中运行其他工作负载。当企业IT团队依靠云服务供应商特定的监控技术时,实际的情况是:工具数量和相关的挑战将会增加。企业客户的IT团队将需要继续使用他们现有的企业内部部署的工具,毕竟,他们已经在这些工具上投入了大量时间来采购,配置和管理。而采用云服务供应商的特定工具则代表了企业员工们还需要学习、使用和管理相关的其他元素。
更进一步加剧了复杂性的事实是,大多数企业组织最终将会利用来自多家服务供应商的云服务。现实情况是,每款应用程序都有其独特的要求,而每家云服务提供商的产品又分别具有其独特的优势和劣势。因此,对于每款不同的云服务而言,企业组织可能需要添加一个独特的监控工具的混合。最终的结果是,除了他们可能已经有的用以监控他们企业内部部署的技术的几十款工具之外,一家企业组织可能最终需要使用来自多家云服务提供商的监控工具。
随着工具数量的不断增加,企业的行政负担和成本也将随之增加。此外,当出现问题时,工作人员将不得不花费大量时间从一款工具转移到另一款工具,并参与跨职能团队会议,以便隔离在分布式环境中的问题根源。
四、利用率洞察见解有限
当利用云服务时,企业按照其所使用的容量能力支付费用。然而,由于繁琐而有限的监控工具,跟踪和充分了解当前和正在进行的资源利用率是很困难的。因此,企业组织冒着为他们并不需要的容量能力支出费用的风险,这减少了通过迁移到云服务可能实现的一些潜在的回报。此外,企业组织需要分析历史数据,以便更好地规划未来的容量能力和预算,并向开发团队提供基础设施视角,进而提高应用程序的性能。
五、缺乏端到端的用户体验监控
由于所使用的点工具有限,企业客户的IT团队对于最重要的一个方面缺乏洞察力,即:最终用户体验的质量。点工具提供了对于特定基础架构元素的监控,但它们并不能提供从用户的角度跟踪性能和可用性的能力,也不能用于衡量跨多个分布式基础架构和服务的事务的端到端的响应时间。
最终,IT团队可能从可用的监控指标看到各种基础设施元素的表现良好,但实际上用户可能仍然会觉得性能较慢,或者他们可能根本无法完成所需的交易。这种可见性的缺乏将使企业面临冗长和昂贵的性能和可用性问题。
优化公共云基础架构性能的关键成分
一、获得对于跟踪效果的可操作的洞察
通常,来自云供应商的点工具或工具将提供许多指标,但是这些指标难以理解,很难提供一套精准的分析洞察力,并且不能正常化。他们缺乏可以优化性能和更快解决问题所需的可行的洞察。故而企业客户需要确保使用可操作的指标,为您的云基础设施提供真正的洞察见解以及掌握如何利用它们。
二、在云中监控应用程序和服务的运行,以更快地检测问题
当企业组织注册公共云服务时,他们通常订购的是特定的系统或基础架构服务,例如服务器、存储、数据库等。虽然来自云服务提供商的工具将为这些基础架构元素提供监控详情细节,但是它们不会对运行在这些元素之上的应用程序或进程的性能提供任何可见性。这些工具可能只显示CPU的利用率为60%,但并不清楚哪个进程负责了哪项具体的工作负载。而企业团队需要这种可见性,以全面的方式了解和优化绩效。
三、建立云和企业本地内部部署基础架构的统一视图,以加快平均修复时间
现实情况是,大多数企业组织都是在内部部署和基于云的环境中运行工作负载。在管理企业内部来源的IT环境时具有统一的观点是至关重要的。虽然公共云服务在对服务器和其他基础设施元素的实际控制程度方面提供了显著的差异,但现实情况则是,具有统一的视图同样重要。当IT团队全面了解其基础架构的所有功能和利用率时,可以方便他们更快地解决问题。
四、跟踪端到端的用户体验,以确保服务的可靠性
今天,当银行的客户登录到移动手机端的应用程序来检查她的账户时,一些分布式环境可能支持互动。用户可以登录到在某家公共云服务提供商的环境中所托管的Web服务器,然后证书可以由本地服务器验证,然后可以按照顺序对托管在第二家云提供商的设施中的后端系统进行帐户详细信息的访问调用。至关重要的是,IT团队可以从端到端跟踪这些多步交易,并准确测量用户正在接收哪种体验。
五、让企业IT团队对智能报警知情
云环境具有很强的弹性,计算资源不断地被转移和处理,这可能会对基于基础监控工具的团队造成严重破坏。
企业IT团队需要能够设置智能、动态更新的阈值,以便他们能够确保在需要时获得对于问题的准确判断,而不会被虚假和冗余的警报所困扰。通过利用复杂的超时阈值分析,IT团队可以识别真正的、持久的性能问题,并消除与偶尔尖峰相关联的虚假警报。超时阈值分析可以自动识别潜在的性能下降的威胁,并发出早期的警告,以便管理员可以在内部和外部用户受到影响之前做出响应。
高级平台可以提供一份代表了管理员应该注意的问题情况的优先级列表清单。他们还可以在预计发生问题之前按时间排列这些问题项目,以提示首先要注意立即解决的问题。此外,监控平台需要提供与服务台解决方案的集成整合,以便在发生问题时,IT团队可以自动打开一个包含有关问题的所有相关详细信息的服务清单。
六、建立快速的、基于模板的监控部署
云环境的主要优点之一是他们所具备的灵活敏捷性。但是,云环境动态的,弹性的属性也向企业IT团队提出了一些挑战。鉴于虚拟化的、按需分配的资源不断被打开和关闭,以适应不断变化的工作负载,监测还需要在连续的基础上开始和停止。
为了对这些环境进行有效和高效的监控,IT团队需要尽可能减少或消除人工手动操作。而为了实现这些目标,IT团队需要建立用于监控特定类别技术的模板,并尽可能最大限度地利用自动化来应用这些模板。七、在整个迁移周期中利用监控
随着企业组织将应用程序从企业本地基础架构迁移到云环境中,他们将需要使用监控,以确保不会引发服务级别的中断。为了在过渡期间实现最有效地管理服务水平,IT团队应采用以下方法:
在迁移到新的云环境中时立即建立起对服务的监控,这是至关重要的,因为这是最有可能发生配置和其他与迁移有关的问题。
开发仪表板和报告,提供新的部署实施之前的预先的细粒化的比较,这对于发现可能表明性能和可用性问题出现的趋势至关重要。
对服务进行综合监控,无论是在初始的企业内部部署实施中运行,还是迁移到云环境之后。 这些监控指标为最终用户服务水平提供了无与伦比的前后比较,以便使得IT团队可以最有效地确保云迁移不会导致任何性能下降。图D、为了管理云和混合IT环境,许多企业都依赖于多点监控工具
七、主动监控云的利用率
许多决策者最终选择迁移到云环境,正是因为节省了成本并且可以获得预算的灵活性。然而,一旦进入云计算,IT团队就需要主动管理容量,以确保在最初和长期时限内实现最大的成本节约。要实现这些目标,请考虑:
历史趋势报告和仪表板。有了这些视图,分析师们就可以跟踪长期利用率的趋势并评估年度比较。对于那些必须适应季节性和剧烈波动的使用趋势的企业组织而言,这些视图尤其重要。
成本和利用率数据的智能阈值。通过建立智能化的、超时阈值警报,IT团队可以确保在资源过度配置之前通知它们,从而更积极地管理服务水平和容量。此外,通过智能阈值,IT团队可以不断确保他们掌握利用不足的资源,从而更积极地持续削减开支。
结论
虽然云服务的实施所能够带来的益处的确是很大的,但对于许多企业组织来说,某些回报可能是他们难以驾驭的。监控能力将在企业组织是否可以从云部署中实现最大的业务收益方面发挥至关重要的作用。只有借助强大的统一监控,企业组织才能有效地跟踪和管理用户所接收到的服务水平,并使业务能够最充分地利用云产品所提供的成本节约和灵活敏捷性的优势。