如何为DevOps和SRE选择监控工具

68次阅读
没有评论

共计 2707 个字符,预计需要花费 7 分钟才能阅读完成。

这期内容当中丸趣 TV 小编将会给大家带来有关如何为 DevOps 和 SRE 选择监控工具,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。

如何为 DevOps 和 SRE 选择监控工具

简介:在开发可靠性或实施弹性 DevOps 实践时,决策的核心是数据。如果不仔细监控正常运行时间,网络负载和资源使用情况等关键指标,您将无视在哪里花精力进行开发或完善操作实践。幸运的是,可以使用各种各样的监视工具来帮助您收集和查看此数据。

在开发可靠性或实施弹性 DevOps 实践时,决策的核心是数据。如果不仔细监控正常运行时间,网络负载和资源使用情况等关键指标,您将无视在哪里花精力进行开发或完善操作实践。幸运的是,可以使用各种各样的监视工具来帮助您收集和查看此数据。

尽管尝试完全监视系统中的所有内容可能很诱人,但更集中的监视将更易于实现,并为您提供更多可操作的数据。当基于对客户影响的度量标准时,SLO 之类的 SRE 实践最为有用。确定什么以及如何进行监视是一个重要的决定。在这篇博客文章中,我们将带您了解基础知识。我们还将建议一些流行的监视工具供您考虑。

在哪里实施监控

确定在系统体系结构中的哪个位置实施监视非常重要。这将使您能够围绕监视工具开发体系结构,而不必改造现有代码。根据实现的位置,监视工具将能够观察不同类型的数据。以下是最常见的监视实现类型的分类,以及提供该监视类型的工具示例:

资源监视:也称为服务器监视或基础结构监视,它通过收集有关服务器运行方式的数据来进行操作。资源监视工具报告 RAM 使用率,CPU 负载和剩余磁盘空间。在具有物理服务器的体系结构中,有关硬件运行状况的信息(例如 CPU 温度和组件正常运行时间)也有助于避免服务器故障。在基于云的环境中,虚拟服务器系统的聚合更为有用。

网络监视:这将查看传入和传出计算机网络的数据。您的监视工具可捕获所有组件(如交换机,防火墙,服务器等)中的所有传入请求和传出响应。从网络监视收集的数据可以与来回的数据总量一样简单,也可以与特定请求的频率一样细微。

应用程序性能监视:APM 解决方案收集有关整体服务执行情况的数据。这些工具会将自己的请求发送到服务,并跟踪指标,例如响应的速度和完整性。目的是推动对应用程序性能问题的检测和诊断,以确保服务以预期的水平运行。

第三方组件监视:这涉及监视体系结构中第三方组件的运行状况和可用性。在这个微服务时代,您的服务可能取决于外部服务(从云托管到广告服务器)的正常运行。像应用程序性能监视一样,工具可以根据自己的请求检查这些服务的状态。

您可能需要在整体解决方案中包括每种监视类型中的某些监视。优先考虑使用健壮的冗余监视工具,以确保不会遗漏潜在问题。同时,指标和警报应与服务绑定,以确保与业务影响相关。

您需要从数据中得到什么

拥有可操作的数据不仅与数据本身有关。为了正确响应监视工具报告的内容,您需要以最有用的方式显示数据。监视工具可以为您做一些事情:

当指标超过特定阈值时触发警报 创建事件日志,根据参数突出显示 创建一段时间内的指标图 一目了然地提供关键服务运行状况组件的仪表板 创建可以查询的日志数据库 在制定开发决策或对事件做出响应时,请养成自问的习惯:“为了做出最佳选择,我现在需要考虑什么?”可视化将包含哪些数据以及重要的指标。

开源与购买 要考虑的另一个重要点是,您将在哪里找到监视工具以及谁来维护它们。开源和可购买的工具各有优缺点。

开源监控工具

这些工具是免费的,这对于工具预算有限的公司来说是一个优势。它们也是完全可定制的,允许您将它们集成到自己的体系结构中。但是,这种定制将需要专门的开发时间,也许还需要专门的知识。此外,没有 SLA 保证可用性,安全性,更新频率等。您的团队将承担这些责任。

购买的监控工具

这些工具成本高昂,但具有开源工具无法提供的强大功能。服务提供商将负责保持工具的功能和最新状态。该提供商可能会提供客户服务,培训,文档和其他资源,以帮助您将工具与堆栈集成。在可靠性时代,值得考虑的是进行投资以确保监视的眼睛始终保持打开状态。

监控工具比较

以下是针对您的系统考虑的 10 种最流行的 SRE 和 DevOps 监视工具。

AppDynamics 是专注于 APM 的监视平台。他们提供的其他功能包括基于 AI 的见解,用于模拟客户旅程的最终用户监控以及具有集成收益分析的业务监控。您可以注册免费试用。

DataDog 是一个针对云规模服务的监视平台。它在可视化,警报以及数据合并和分析方面具有强大的功能。它们使性能指标与业务影响相关联。DataDog 提供免费试用。

Prometheus 是一种流行的开源监视工具,提供警报,查询,可视化和许多其他有用的功能。专门的开发社区提供了大量文档和说明,以帮助您快速入门。

New Relic 是一个监视平台,提供了几个也可以独立使用的组件:New Relic APM(应用程序性能监视),New Relic Browser 和 New Relic Infrastructure。他们提供适用于 iOS 和 Android 的应用程序,为您提供更多监视选项。

Nagios 提供开源(Nagios Core)和可购买的选件(Nagios XI)。它们提供了高度可定制的界面,并可以监视整个 IT 网络。它们还通过配置向导来突出其易用性,以引导用户设置新的监视服务。

Dynatrace 允许与其监视平台进行跨团队协作,从而提供一个共享的监视数据单一存储库。它们还包括自主云功能以及将监视功能引入部署的物联网层的能力。他们还提供免费试用。

Solarwinds 提供了几种产品,每种产品专门用于监视的不同领域:网络管理,系统管理,数据库管理,IT 安全性,IT 服务管理,应用程序管理和托管服务提供商。每个都可以免费试用。

Site24x7 专门从事网站监视,提供诸如状态页和 Web 服务(例如 AWS 和 Azure)运行状况诊断的工具。它们还提供综合 Web 事务监视,使您可以模拟使用情况并收集指标。他们根据所需的服务提供几种定价计划。

SignalFx 提供了广泛的微服务集成,使您可以看到服务运行状况的完整图片。如果您的服务包含许多第三方组件,则这一点很重要。他们的重点是帮助您从单一模型到微服务模型构建您的体系结构。

PRTG Network Monitor 是一项完整的监视服务,可以集成到架构的许多阶段和位置。它们在网络,单个服务器,特定应用程序以及介于两者之间的所有内容上提供监视。该提供程序还提供免费版本。

上述就是丸趣 TV 小编为大家分享的如何为 DevOps 和 SRE 选择监控工具了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注丸趣 TV 行业资讯频道。

正文完
 
丸趣
版权声明:本站原创文章,由 丸趣 2023-08-16发表,共计2707字。
转载说明:除特殊说明外本站除技术相关以外文章皆由网络搜集发布,转载请注明出处。
评论(没有评论)