Consul故障分析与优化是怎么样的

170次阅读

共计 5138 个字符，预计需要花费 13 分钟才能阅读完成。

Consul 故障分析与优化是怎么样的，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

注册中心背景及 Consul 的使用

从微服务平台的角度出发希望提供统一的服务注册中心，让任何的业务和团队只要使用这套基础设施，相互发现只需要协商好服务名即可; 还需要支持业务做多 DC 部署和故障切换。由于在扩展性和多 DC 支持上的良好设计，我们选择了 Consul，并采用了 Consul 推荐的架构，单个 DC 内有 Consul Server 和 Consul Agent，DC 之间是 WAN 模式并且相互对等，结构如下图所示：

注：图中只画了四个 DC，实际生产环境根据公司机房建设以及第三方云的接入情况，共有十几个 DC。

与 QAE 容器应用平台集成

爱奇艺内部的容器应用平台 QAE 与 Consul 进行了集成。由于早期是基于 Mesos/Marathon 体系开发，没有 Pod 容器组概念，无法友好的注入 sidecar 的容器，因此我们选择了微服务模式中的第三方注册模式，即由 QAE 系统实时向 Consul 同步注册信息，如下图所示; 并且使用了 Consul 的 external service 模式，这样可以避免两个系统状态不一致时引起故障，例如 Consul 已经将节点或服务实例判定为不健康，但是 QAE 没有感知到，也就不会重启或重新调度，导致没有健康实例可用。

其中 QAE 应用与服务的关系表示例如下：

每个 QAE 应用代表一组容器，应用与服务的映射关系是松耦合的，根据应用实际所在的 DC 将其关联到对应 Consul DC 即可，后续应用容器的更新、扩缩容、失败重启等状态变化都会实时体现在 Consul 的注册数据中。

与 API 网关集成

微服务平台 API 网关是服务注册中心最重要的使用方之一。网关会根据地区、运营商等因素部署多个集群，每个网关集群会根据内网位置对应到一个 Consul 集群，并且从 Consul 查询最近的服务实例，如下图所示：

这里我们使用了 Consul 的 PreparedQuery 功能，对所有服务优先返回本 DC 服务实例，如果本 DC 没有则根据 DC 间 RTT 由近到远查询其它 DC 数据。

故障与分析优化

Consul 故障

Consul 从 2016 年底上线开始，已经稳定运行超过三年时间，但是最近我们却遇到了故障，收到了某个 DC 多台 Consul Server 不响应请求、大量 Consul Agent 连不上 Server 的告警，并且没有自动恢复。Server 端观察到的现象主要有：

raft 协议不停选举失败，无法获得 leader;

HTTP DNS 查询接口大量超时，观察到有些超过几十秒才返回(正常应当是毫秒级别返回);

goroutine 快速线性上升，内存同步上升，最终触发系统 OOM; 在日志中没能找到明确的问题，从监控 metrics 则观察到 PreparedQuery 的执行耗时异常增大，如下图所示：

此时 API 网关查询服务信息也超时失败，我们将对应的网关集群切到了其它 DC，之后重启 Consul 进程，恢复正常。

故障分析

经过日志排查，发现故障前发生过 DC 间的网络抖动(RTT 增加，伴随丢包)，持续时间大约 1 分钟，我们初步分析是 DC 间网络抖动导致正常收到的 PreparedQuery 请求积压在 Server 中无法快速返回，随着时间积累越来越多，占用的 goroutine 和内存也越来越多，最终导致 Server 异常。

跟随这个想法，尝试在测试环境复现，共有 4 个 DC，单台 Server 的 PreparedQuery QPS 为 1.5K，每个 PreparedQuery 查询都会触发 3 次跨 DC 查询，然后使用 tc-netem 工具模拟 DC 间的 RTT 增加的情况，得到了以下结果：

当 DC 间 RTT 由正常的 2ms 变为 800ms 之后，Consul Server 的 goroutine、内存确实会线性增长，PreparedQuery 执行耗时也线性增长，如下图所示：

虽然 goroutine、内存在增长，但是在 OOM 之前，Consul Server 的其它功能未受影响，Raft 协议工作正常，本 DC 的数据查询请求也能正常响应;

在 DC 间 RTT 恢复到 2ms 的一瞬间，Consul Server 丢失 leader，接着 Raft 不停选举失败，无法恢复。

以上操作能够稳定的复现故障，使分析工作有了方向。首先基本证实了 goroutine 和内存的增长是由于 PreparedQuery 请求积压导致的，而积压的原因在初期是网络请求阻塞，在网络恢复后仍然积压原因暂时未知，这时整个进程应当是处于异常状态; 那么，为什么网络恢复之后 Consul 反而故障了呢?Raft 只有 DC 内网络通信，为什么也异常了呢? 是最让我们困惑的问题。

最开始的时候将重点放在了 Raft 问题上，通过跟踪社区 issue，找到了 hashicorp/raft#6852，其中描述到我们的版本在高负载、网络抖动情况下可能出现 raft 死锁，现象与我们十分相似。但是按照 issue 更新 Raft 库以及 Consul 相关代码之后，测试环境复现时故障依然存在。

之后尝试给 Raft 库添加日志，以便看清楚 Raft 工作的细节，这次我们发现 Raft 成员从进入 Candidate 状态，到请求 peer 节点为自己投票，日志间隔了 10s，而代码中仅仅是执行了一行 metrics 更新，如下图所示：

因此怀疑 metrics 调用出现了阻塞，导致整个系统运行异常，之后我们在发布历史中找到了相关优化，低版本的 armon/go-metrics 在 Prometheus 实现中采用了全局锁 sync.Mutex，所有 metrics 更新都需要先获取这个锁，而 v0.3.3 版本改用了 sync.Map，每个 metric 作为字典的一个键，只在键初始化的时候需要获取全局锁，之后不同 metric 更新值的时候就不存在锁竞争，相同 metric 更新时使用 sync.Atomic 保证原子操作，整体上效率更高。更新对应的依赖库之后，复现网络抖动之后，Consul Server 可以自行恢复正常。

这样看来的确是由于 metrics 代码阻塞，导致了系统整体异常。但我们依然有疑问，复现环境下单台 Server 的 PreparedQuery QPS 为 1.5K，而稳定的网络环境下单台 Server 压测 QPS 到 2.8K 时依然工作正常。也就是说正常情况下原有代码是满足性能需求的，只有在故障时出现了性能问题。

接下来的排查陷入了困境，经过反复试验，我们发现了一个有趣的现象：使用 go 1.9 编译的版本 (也是生产环境使用的版本) 能复现出故障; 同样的代码使用 go 1.14 编译就无法复现出故障。经过仔细查看，我们在 go 的发布历史中找到了以下两条记录：

根据代码我们找到了用户反馈在 go1.9~1.13 版本，在大量 goroutine 同时竞争一个 sync.Mutex 时，会出现性能急剧下降的情况，这能很好的解释我们的问题。由于 Consul 代码依赖了 go 1.9 新增的内置库，我们无法用更低的版本编译，因此我们将 go 1.14 中 sync.Mutex 相关的优化去掉，如下图所示，然后用这个版本的 go 编译 Consul，果然又可以复现我们的故障了。

回顾语言的更新历史，go 1.9 版本添加了公平锁特性，在原有 normal 模式上添加了 starvation 模式，来避免锁等待的长尾效应。但是 normal 模式下新的 goroutine 在运行时有较高的几率竞争锁成功，从而免去 goroutine 的切换，整体效率是较高的; 而在 starvation 模式下，新的 goroutine 不会直接竞争锁，而是会把自己排到等待队列末端，然后休眠等待唤醒，锁按照等待队列 FIFO 分配，获取到锁的 goroutine 被调度执行，这样会增加 goroutine 调度、切换的成本。在 go 1.14 中针对性能问题进行了改善，在 starvation 模式下，当 goroutine 执行解锁操作时，会直接将 CPU 时间让给下一个等待锁的 goroutine 执行，整体上会使得被锁保护部分的代码得到加速执行。

到此故障的原因就清楚了，首先网络抖动，导致大量 PreparedQuery 请求积压在 Server 中，同时也造成了大量的 goroutine 和内存使用; 在网络恢复之后，积压的 PreparedQuery 继续执行，在我们的复现场景下，积压的 goroutine 量会超过 150K，这些 goroutine 在执行时都会更新 metrics 从而去获取全局的 sync.Mutex，此时切换到 starvation 模式并且性能下降，大量时间都在等待 sync.Mutex，请求阻塞超时; 除了积压的 goroutine，新的 PreparedQuery 还在不停接收，获取锁时同样被阻塞，结果是 sync.Mutex 保持在 starvation 模式无法自动恢复; 另一方面 raft 代码运行会依赖定时器、超时、节点间消息的及时传递与处理，并且这些超时通常是秒、毫秒级别的，但 metrics 代码阻塞过久，直接导致时序相关的逻辑无法正常运行。

接着生产环境中我们将发现的问题都进行了更新，升级到 go 1.14，armon/go-metrics v0.3.3，以及 hashicorp/raft v1.1.2 版本，使 Consul 达到一个稳定状态。此外还整理完善了监控指标，核心监控包括以下维度：

进程：CPU、内存、goroutine、连接数

Raft：成员状态变动、提交速率、提交耗时、同步心跳、同步延时

RPC：连接数、跨 DC 请求数

写负载：注册解注册速率

读负载：Catalog/Health/PreparedQuery 请求量，执行耗时

冗余注册

根据 Consul 的故障期间的故障现象，我们对服务注册中心的架构进行了重新审视。

在 Consul 的架构中，某个 DC Consul Server 全部故障了就代表这个 DC 故障，要靠其它 DC 来做灾备。但是实际情况中，很多不在关键路径上的服务、SLA 要求不是特别高的服务并没有多 DC 部署，这时如果所在 DC 的 Consul 故障，那么整个服务就会故障。

针对本身并没有做多 DC 部署的服务，如果可以在冗余 DC 注册，那么单个 DC Consul 故障时，其它 DC 还可以正常发现。因此我们修改了 QAE 注册关系表，对于本身只有单 DC 部署的服务，系统自动在其它 DC 也注册一份，如下图所示：

QAE 这种冗余注册相当于在上层做了数据多写操作。Consul 本身不会在各 DC 间同步服务注册数据，因此直接通过 Consul Agent 方式注册的服务还没有较好的冗余注册方法，还是依赖服务本身做好多 DC 部署。

保障 API 网关

目前 API 网关的正常工作依赖于 Consul PreparedQuery 查询结果在本地的缓存，目前的交互方式有两方面问题：

网关缓存是 lazy 的，网关第一次用到时才会从 Consul 查询加载，Consul 故障时查询失败会导致请求转发失败;

PreparedQuery 内部可能会涉及多次跨 DC 查询，耗时较多，属于复杂查询，由于每个网关节点需要单独构建缓存，并且缓存有 TTL，会导致相同的 PreparedQuery 查询执行很多次，查询 QPS 会随着网关集群规模线性增长。

为了提高网关查询 Consul 的稳定性和效率，我们选择为每个网关集群部署一个单独的 Consul 集群，如下图所示：

图中红色的是原有的 Consul 集群，绿色的是为网关单独部署的 Consul 集群，它只在单 DC 内部工作。我们开发了 Gateway-Consul-Sync 组件，它会周期性的从公共 Consul 集群读取服务的 PreparedQuery 查询结果，然后写入到绿色的 Consul 集群，网关则直接访问绿色的 Consul 进行数据查询。这样改造之后有以下几方面好处：

从支持网关的角度看，公共集群的负载原来是随网关节点数线性增长，改造后变成随服务个数线性增长，并且单个服务在同步周期内只会执行一次 PreparedQuery 查询，整体负载会降低;

图中绿色 Consul 只供网关使用，其 PreparedQuery 执行时所有数据都在本地，不涉及跨 DC 查询，因此复杂度降低，不受跨 DC 网络影响，并且集群整体的读写负载更可控，稳定性更好;

当公共集群故障时，Gateway-Consul-Sync 无法正常工作，但绿色的 Consul 仍然可以返回之前同步好的数据，网关还可以继续工作;

由于网关在改造前后查询 Consul 的接口和数据格式是完全一致的，当图中绿色 Consul 集群故障时，可以切回到公共 Consul 集群，作为一个备用方案。

关于 Consul 故障分析与优化是怎么样的问题的解答就分享到这里了，希望以上内容可以对大家有一定的帮助，如果你还有很多疑惑没有解开，可以关注丸趣 TV 行业资讯频道了解更多相关知识。

正文完