如果将可观测性与持续自动化和人工智能辅助技术融为一体,就可以为企业提供具有可操作性的答案,而这正是确保云原生应用完美工作、交叉协作团队全力打造最佳用户体验和业务成效所不可或缺的。
第 1 章
从数据采集升级到提供答案
企业通过构建大量的云环境来推动自身的数字化转型战略,但云原生环境因其与生俱来的动态性和复杂性而难以观测和运行,由此使得可观测性的概念迅速升温。
就 Dynatrace 而言,我们完成了自身的数字化转型,将公司重塑为云原生的敏捷型企业。我们彻底重构了我们的产品,以满足我们部分客户最先进的企业云环境在可观测性、自动化及智能化方面与日俱增、面向未来的需求。
我们认为,可观测性固然非常重要,但只“观测”数据还不够——能用这些数据给出答案并由此最终达成更好的业务成效才是关键所在。
随着微服务环境日趋动态化、规模扩大到成百上千台主机,真正的挑战变为要实时弄清在整个技术栈的背景下数据的含义,以便迅速掌握对用户的影响、防止影响业务的问题骤增。这些挑战成为令人望而生畏的工作,很快就超出了即便是技艺精湛、经验丰富的操作人员的能力极限。这就是 Dynatrace 开发全然不同的软件智能平台的原因所在。它运用自动化、人工智能辅助技术来提供解决之道,扩充了传统的可观测能力,能够适应最庞大、最复杂的环境。
就软件而言,可观测性是指可根据从系统外部获取的数据来推断系统内部状态和性能的程度。
第 2 章
当今的云环境要求对观测方式进行扩充
以前传统应用性能监测(APM)出现之时,软件大多数是单体应用,而且发布周期是以年而不是以天计算。当时采用手工方式进行插装和性能基线化,虽然笨拙繁琐,但还是游刃有余的,特别是在故障模式广为人知且充分了解的情况下。
随着单体应用为云原生应用所取代,规模和复杂性呈现快速增长,这使得传统监测方式难以奏效,并且会耗费越来越多的资源和成本。如今企业需要全方位的可视化能力,以便能够深入到这些动态伸缩的微服务环境的每一个组件之中,而不是针对预先定义的问题集合进行插装。其中包括多重云基础设施、Kubernetes 之类的容器调度系统、服务网格、功能即服务以及多语言容器负载。
此类应用要比以往更加错综复杂、难以预测。在发生故障时企业对系统健康状况问题知之甚少,而且 IT 团队采用手工方式解决问题、被动地紧急处置故障需要花费大量的时间,这会使问题越积越多,以至于客户接连不断的问题让呼叫中心应接不暇。
当今云环境面临的最大挑战是要应对各种未知情况——这种独特的小故障类型以往从未出现过,并且无法通过仪表板发现。它们是传统可观测性概念试图解决的不断增加的痛点。
第 3 章
自动化、背景信息及人工智能离不开先进的可观测能力
先进的可观测能力性提出了更有效地从各个系统组件采集数据的方式,具备了全方位、便利的可视化能力,能够化解云原生应用的种种挑战。大多数以前的工具侧重于采集、汇总三种主要的数据类型——指标、跟踪及日志信息——即所谓的可观测性三大基石。
Dynatrace 依托 OneAgent 技术率先扩大了高度动态化云环境中可观测性数据的采集。除指标、日志及跟踪信息以外,Dynatrace 还采集用户体验数据,从而实现全栈式、端到端的代码级可观测能力。
最重要的是,Dynatrace 拥有以下三种异乎寻常、与众不同的功能,因此它不仅能提供更多的数据,还能给出解决之道:
持续、自动完成发现、插装,零手工配置
可确保高度动态化环境的可伸缩性和不间断的全面覆盖。
提供拓扑结构信息
有助于了解数以十亿计的相互依赖性、各个层级中不同实体与被观测到的数据之间的背景信息。
采用了基于因果关系的人工智能引擎
可针对各种问题通过实时、精准的代码级问题根源分析来提供具有可操作性的答案。
第 4 章
通过自动化技术实现可伸缩性和完整性
大多数可观测方式需要开发人员对其代码进行手工插装。在拥有数千台主机和微服务的环境中,其动态部署范围可延伸到世界各地的多重云基础设施,这使得手工插装变得徒劳无功,并且迫使您将团队的主要精力放在非增值的工作上。
Dynatrace 平台可持续自动采集和分析数据,具备面向企业级的可伸缩性和端到端的高级可观测能力。
自动发现
一旦完成安装,Dynatrace OneAgent 能够自始至终自动、实时地检测所有的应用、容器、服务、进程及基础设施。
自动插装
自动完成系统组件插装,做到了零配置、代码零更改。一旦系统组件工作,Dynatrace 就开始采集高保真数据(例如指标、日志、跟踪信息及用户体验)以及拓扑结构数据。
自动制定基线
Dynatrace 的智能基线化功能可自动学习什么是“正常”性能行为,并随着环境变化进行动态调整。
自动更新
为尽量减少现有维护工作,Dynatrace OneAgent 可持续、自动、安全地对整个环境进行更新。
第 5 章
通过实时绘制的拓扑结构提供各个层级的背景信息
一般在存储指标、跟踪信息、日志及用户体验数据时,并不会保存那些将它们衔接在一起的重要背景信息。这些数据孤岛导致无法对整体的系统健康状况进行评估,也无从了解各种问题所造成的影响。例如,您可能会收到服务 A 故障率增加的警报以及因进程 B 的 CPU 使用率上升而引发的另一个警报。这两个警报是否或者有何关联?它们对终端用户有何影响?在此情况下您难以回答。
Dynatrace 能够自动发现并采集丰富的背景信息元数据,实时生成被称作 Smartscape 的拓扑结构图,从而避免了此类数据孤岛的出现。它会采集所有系统组件的关系和依赖性,其中既有从上到下的层级(纵向),也有服务、进程及主机(横向)。在大型的企业系统中,存在着数以十亿计变化多端的相互依赖关系,Smartscape 都能对它们一直进行跟踪。
拓扑结构图使 Dynatrace 能够掌握所有采集到的数据之间的真实联系,而不是基于时间的简单关联,由此可以揭示出这些所采集数据之间的实际因果依赖关系。绘制拓扑结构图也是人工智能能够对影响进行测定所不可或缺的关键基础;如果没有拓扑结构图,人工智能的效用就会受到局限。
第 6 章
基于因果关系的代码级人工智能技术可提供精准的答案
传统的可观测性解决方案除了提供仪表板可视化之外就没有多少其他信息了。最终这会迫使技术专家中断创新工作,只得在作战室里费时费力地通过手工方式分析数据、设法得出有根据的猜测。
尽管已经竭尽全力,用户投诉仍难以解决;并且由于客户连续放弃的时间过长,您的组织将无法承受。Dynatrace 是独一无二的、能委以操作人员重任的软件智能平台,其原因在于 Dynatrace 的人工智能引擎 Davis 能够自动进行异常根源分析,并且专为高度动态化的微服务环境而打造。
是什么使 Davis 与其他的平台产品有如此大的差异?
- 精心打造的内核: Davis™ 是 Dynatrace 平台的核心,能够处理来自所有技术栈的全部高级可观测数据和第三方数据,且无论其源自何处。
- 精准的代码级问题根源分析: Davis 能在数毫秒内探查数十亿的依赖关系来定位故障组件并提供代码级可视化。
- 识别不良部署: Davis 能准确掌握哪些部署或配置更改会导致异常现象,从而消除主观臆测。
- 发现未知情况: Davis 并不依赖于预定义的异常阈值,而是自动检测数据中所有反常的“变异点”。
- 自动执行假设测试: Davis 能快速、系统性地排查整个故障树,有助于进行实时决策。
- 不需要反复进行模型学习或推测: 不同于无法发现未知情况的机器学习方式,Davis 基于因果关系的人工智能技术是以持续、实时更新的拓扑结构图为基础。
第 7 章
展望未来:通过 OpenTelemetry 实现更广泛的覆盖
OpenTelemetry 开源项目由云原生计算基金会(CNCF)领导,旨在让软件更易于观测,并促使遥测成为云原生软件的内置特性。OpenTelemetry 致力于改进可观测性数据的采集,特别是一些应用日益广泛的新兴云框架的指标和分布式跟踪信息。
这项倡议得到了开源社区以及包括 Dynatrace、Google 及 Microsoft 在内的主要贡献者的广泛支持。Dynatrace 主动贡献并分享了自己在自动插装、互操作以及企业级解决方案方面的专业知识。一旦 OpenTelemetry 成为标准得以广泛应用,它就可以作为额外的数据源进一步扩大 Dynatrace 已经令人印象深刻的技术覆盖广度。
Dynatrace 平台通过自动化、全栈拓扑结构图实现了最大限度的可伸缩性,有助于企业充分利用 OpenTelemetry Davis 进行基于因果关系的人工智能分析还可以提供解决之道,而不仅仅是给出呈指数式增加的数据供观测。