0%

架构设计 全链路压测平台建设

全链路压测平台,它的目标是对全公司所有业务,提供单服务、全链路,安全、高效、准确、高覆盖的压测,来帮助业务高效便捷的完成性能测试任务,更精确评估线上服务性能和容量方面风险。

  • 安全:所有压测都是在线上完成的,所以理论上所有的压测对线上用户都是有损的。压测平台将从服务状态,以及压测数据两方面去保证压测的安全性。
  • 高效:较少压测脚本编写成本,数据构造和压测监控成本,尽量自动化完成压测过程的各个阶段。
  • 准确:精确的压力控制,准确的链路压测监控,精确的压测报告结果,以及性能&容量数据。
  • 高覆盖:需要支撑公司内不同的业务线的压测需求,如搜索,广告,电商,教育,游戏等等。

背景

分布式系统单机单接口性能不代表整体,会受限于公共资源。而分布式系统接口受限于性能短板,有时只有在集群压力达到一定值时,才能被发现,严重时可能造成集群雪崩。因此压测成为了稳定性建设的其中一环。

全链路压测在整个系统稳定性建设中占有核心重要的位置,尤其是针对于日常低流量、有特定时间段的高流量业务场景。全链路压测可以帮助系统性地评估容量和发现隐患,最终可以确保高流量场景下系统的稳定。

通过对压测实施的具体动作做统一的梳理,在压测各个阶段推进标准化和自动化,尽力提升全流程的执行效率,最终达到常态化的目标,如下图所示:

![[Pasted image 20230303125710.png]]

在全链路压测的整个周期中,压测成本、压测安全和压测有效性也是需要一直关注的质量属性。当前压测流程的痛点如下:

全链路压测系统

Rhino 是一个分布式全链路压测系统,可以通过水平扩展,来实现模拟海量用户真实的业务操作场景,对线上各种业务进行全方位的性能测试。它主要分为控制中心(Rhino Master)模块、压测链路服务模块、监控系统模块、压测引擎模块。

参考字节、美团的全链路压测方案思路

链路治理

压测实施的第一步就是明确压测目标,即梳理压测链路、明确压测范围。而为了达成目标,请求调用链检索是非常必要的。

请求调用链检索,可以梳理服务间的依赖,对所依赖的服务是否具备压测的条件有清晰的认知,也能针对其情况提前制定方案进行服务改造 / Mock 所依赖的服务。也可以提供清晰完整的链路监控,整体把控压测计划的影响并针对性地制定预案。

调用链检索通常是由日志平台实现的。一个服务在被请求或者请求下游时,都会透传一个 LogID。RPC 框架会打印调用链日志(包括 RPC 日志-调用者日志,Access 日志-被调用者日志),所有日志中都会包含这个 LogID。通过 LogID 将一个请求所经过的所有服务日志串起来,就完成调用链检索。

需要注意的是:线程/进程间信息传递时 LogID 的留存问题

压测前准备

压测开关

为了解决线上压测安全问题,需要引入压测开关组件。

  • 每个服务每个集群,都有一个压测开关。只有打开压测开关时,压测流量才能流入到服务内,否则就会被底层微服务框架直接拒绝,业务层无感。
  • 在每个 IDC 区域,都会有一个全局的压测总开关。只有打开了这个全局压测开关,压测流量才被允许在这个 IDC 内流转。
  • 当线上出现压测问题,除了从源头关闭压测流量以外,关闭目标服务的压测开关,也能立即阻断压测流量。

在压测之前,需要开启整体链路的压测开关的,否则压测流量就会被服务拒绝,导致压测失败。

  • 一键开启:在压测执行之前,Rhino 平台可以一键开启链接上所有节点的压测开关。
  • 静默关闭:压测开关到期后,Rhino 会自动静默关闭压测开关,以保证线上服务的安全。
  • 压测开关开启周知:压测开关开启时,Rhino 平台会自动给对应服务 Owner 推送相关信息,确保服务 Owner 了解相关压测信息,上游会有压测流量会经过其服务。

服务改造

在压测之前,需要对服务进行压测验证。对于不满足压测要求(即压测数据隔离)的服务,需要进行压测改造。

  • 压测验证:对于存储服务,在不打开压测开关的前提下,通过压测请求,发送读写操作都是会被拒绝。如果没有拒绝,说明在操作存储服务时,没有带上压测 Context,需要进行改造。
  • 压测改造:压测改造是线上全链路压测推进中非常关键,而又非常困难的一个环节。对于已经上线的服务,压测改造还极有可能会引入新的 BUG,所以经常推动起来比较困难。

因此为了解决这些问题,平台有以下几个解决方案:

  1. 尽量减少代码改动,并给出完整的指导手册及代码示例,减少 RD 的工作量,降低代码错误的可能性。
  2. 提供简单便捷的线上线下 HTTP&RPC 的压测请求 Debug 工具,方便代码改动的验证。
  3. 对于新项目,项目开始初期,就将压测改造加入项目开发规范中,减少后期的代码改动。

服务 Mock

对于调用链中不能压测的服务(敏感服务),或者第三方服务,为了压测请求的完整性,就需要对这些服务进行 Mock。业界通用的 Mock 方案有:

  1. 修改业务代码,修改服务调用为空转代码。优点:实现成本低。缺点:返回值固定,代码&业务入侵高,推动困难。如要 Mock 位置比较靠下游,超出部门覆盖业务范围,推动就非常麻烦。
  2. 通用 Mock 服务。通用 MockServer,会根据不同用户配置不同 Mock 规则,执行对应的响应延时,并返回对应响应数据。优点:无代码入侵,业务方无感知。缺点:实现成本高。

可以通过 Service Mesh 和 MockServer 系统来实现了高效的,对业务透明的服务 Mock。

压测执行前,平台需要向 Service Mesh 注册染色转发规则,并向 Mock 服务注册 Mock 规则。然后在压测流量中注入 Mock 染色标记,才能完成服务 Mock:

  • 基于 Service Mesh 的染色流量转发。首先需要在压测流量中注入转发染色标记,并在 Service Mesh 中注册对应的转发规则。Service Mesh 检测到染色流量后,就会将其转发到指定的 Mock Server 上。
  • 基于 Mock Server 的请求规则匹配。首先在 Mock Server 上注册 Mock 规则,以及匹配的 Response 和响应时延。当 Mock Server 接收到请求后,会根据规则进行响应。

数据及流量构造

压测实施的第二步就是压测前数据准备。这一步往往占用的人力成本比较大,而在实际的研发中需要找准痛点

数据构造

压测过程中数据构造是最重要,也是最为复杂的环节。压测数据的建模,直接影响了压测结果的准确性。

  • 对于服务性能缺陷扫描、性能调优以及新上线服务、推荐构造 Fake 数据、来压测指定路径(规则生成)。
  • 对于线上容量规划、性能能力验证以及性能 Diff、推荐使用线上真实流量、使压测结果更贴近真实情况(数仓提供)。
  • 对于涉及到用户账号,用户登录态保持的情况,推荐使用压测专属测试账号,避免影响线上真实用户(场景定制)。

规则生成 Fake 数据

为了高效的构造特定的 Fake 压测数据,Rhino 压测平台提供大量数据构造方式:

  1. CSV 文件:按列分割数据,字段名取 CSV 文件第一行。数据读取方式是按行递增循环。如果一个压测任务会拆分成多个 Job,那么数据文件也会拆分,避免 Job 之间的数据重复。
  2. 自增:变量类型均为数字类型。每次发压时+1,到最大值后从最小值循环使用。
  3. 随机:变量类型均为数字类型。每次发压时随机生成。
  4. 常量:Constant,可自定义为任意值。

数仓模拟真实流量

根据真实流量清洗、校正、生成压测数据

核心链路场景定制化

在压测过程中,有些压测请求需要进行登录,并保持会话;此外在很多压测请求中涉及到用户账号信息 UserID,DeviceID 等数据。用户账号的构造问题,一直是压测过程中非常棘手的问题。Rhino 平台打通的用户中心,设置了压测专属的账号服务,完美地解决了压测过程中的登录态,以及测试账号等问题。具体流程如下图。

流量隔离

流量隔离中需要解决的压测请求隔离,以及压测数据隔离。

压测请求隔离,主要是通过构建压测环境来解决,如线下压测环境,或泳道化/Set 化建设,将压测请求与线上流程完全隔离。优点是压测请求与线上请求完全隔离,不会影响到线上用户。缺点:机器资源及维护成本高,且压测结果需要经过一定的换算,才能得线上容量,结果准确性存在一定的问题。

压测数据隔离,主要是通过对压测流量进行染色,让线上服务能识别哪些是压测流量,哪些是正常流量,然后对压测流量进行特殊处理,以达到数据隔离的目的。

整体压测隔离框架如图。

压测数据隔离

请求链路透传

压测标记

压测标记就是最常见的压测流量染色的方式。

对于 RPC 协议,会在请求的头部中增加一个 Key:Value 的字段作为压测标记。

对于 HTTP 和其他协议,会在请求头,自动注入一个 Stress 标记(Key-Value) 。

压测标记 Key:Value,其中 key 是固定的 Stress_Tag 值,但是每个压测任务都有唯一的 Stress_Value 值,主要用于解决压测数据冲突、性能问题定位。

压测标记透传

目前公司内各个基础组件、存储组件,以及 RPC 框架都已经支持了压测标记的透传。其原理是将压测标记的 KV 值存入 Context 中,然后在所有下游请求中都带上该 Context,下游服务可以根据 Context 中压测标记完成对压测流量的处理。在实际业务中,代码改造也非常简单,只需要透传 Context 即可。

  • Golang 服务:将压测标记写入 Context 中。
  • Python 服务:利用 threading.local() 存储线程 Context。
  • Java 服务:利用 ThreadLocal 存储线程 Context。
数据存储隔离

线上压测中,最复杂的问题就是压测链路中涉及到写操作,如何避免污染线上数据,并且能保证压测请求保持和线上相同的请求路径。业界有很多解决方案,常见的有影子表,影子库,以及数据偏移,如图。

标记法(uid/单号) 影子库 影子表
优点 易于实现,无需中间件 完全隔离,线上流量 0 影响 数据清理简单,中间件易支持
缺点 数据混入线上表,清理复杂,DB压力严重时影响线上流量 DB 资源浪费 DB压力严重时影响线上流量
适用场景 流量打标没打通 流量全服务打标 流量全服务打标

平台针对不同存储,有不同的解决方案:

  • MySQL、MongoDB:影子表。SDK 判断是否是压测流量,若是则根据配置映射至新表名。配置策略有两种,一是读写影子表,二是读线上表、写影子表。
  • Redis:Redis Key 加上 Stress 前缀。如 Stress_Tag=Valuex,那么读写 Redis 的 Key=Valuex_Key。这样可以解决多个压测任务数据冲突的问题。压测结束后,只需要对 Prefix=Valuex 做清除或过期操作即可。
  • MQ:对于消息队列,平台有两种策略。一是直接丢弃,然后针对消息队列的性能,单独进行压测;二是在 Header 中透传压测标记,Consumer 根据压测标记和业务需求,再做特殊处理。默认走丢弃策略,业务方可根据需求进行配置。
  • 其他存储,如 ES,ClickHouse 等。压测时,会由路由决定将压测请求打到压测集群、影子库或影子表。

压测计划

压测引擎

压测引擎方面,有开源的压测引擎,也有自研的压测引擎。

开源压测引擎的优点是维护人多,功能比较丰富,稳定且性能好,缺点就是输入格式固定,定制难度大。此外 Agent 与开源压测引擎之间通常是不同进程,进程通信也存在比较大的问题,不容易控制。如 Gatling 等。而自研压测引擎有更多定制化的空间。

压测调度的最小单元是压测 Agent,但是实际每个 Agent 中有挂载多种压测引擎的来支撑不同的压测场景。Rhino 平台在压测数据和压测引擎之间增加了一个压测引擎适配层,实现了压测数据与压测引擎的解耦。压测引擎适配层,会根据选择不同的压测引擎,生成不同 Schema 的压测数据,启用不同的引擎来完成压测,而这些对用户是透明的。

压测执行方式

最小调度单元

压测平台中,压测 Agent 就是一个最小调度单元。一次压测任务,通常会拆分成多个子 Job,然后下发到多个 Agent 上来完成。

  • 最小化容器部署,减少资源浪费。压测对机器资源消耗是非常高的,通常 CPU & Memory 的使用率都在 80%以上。但是没有压测执行时间内,机器资源使用率<5%。如果长期占用大量的资源,将会对机器资源造成极大的浪费。压测 Agent 都采用容器化部署,并且每个容器的资源规格也尽可能小,这样既能满足日常压测需求,也不会占用太多的机器资源。
  • 独占 Agent,增加压测执行稳定性:单个容器内只启动一个 Agent 进程,单个 Agent 同时只能被一个压测任务占用,避免多任务多进程的干扰和资源竞争,增加压测的稳定性。
  • 动态扩容,支撑海量 QPS 发压:压测高峰期,压测平台会临时申请机器资源,快速扩容,完成海量 QPS 的支撑。压测完成后,会立即释放机器资源,减少资源浪费。

智能压力调节

  • 动态分配压测 Agent:在压测过程,经常出现压测 Agent 的 CPU/Memory 使用率过高(>90%),导致压力上不去,达不到目标 QPS;或者压测延时过高,压测结果不准确的问题。Rhino 平台在发压的过程中,会实时监控每个压测 Agent 的 CPU/Memory 使用率,当超过阈值时(>90%),会动态分配额外的 Agent,以降低每个 Agent 的负载,保证压测的稳定性。
  • 智能调节压力:在压测过程,通常需要不断的调节 QPS 大小,以达到性能压测目标。这过程非常耗费精力和时间。压测平台,可以根据压测任务设定的性能指标,智能调节 QPS 大小,当达到压测目标后,会自动熔断,停止压测。

压测链路模拟

压测平台默认将全链路压测分为公网压测和内网压测。公网压测主要是压测 IDC 网络带宽,延时,IDC 网关新建连接、转发等能力;内网压测,主要是压测目标服务,目标集群的性能,容量等。

  • 对于内网压测,默认都要求同 IDC 内发压,减少网络延时的干扰。
  • 对于公网压测,压测平台在公司 CDN 节点上都有部署 Agent 节点,利用了 CDN 节点剩余计算能力,完成了公网压测能力的建设。

同城多机房,异地多机房

压测平台在各个 IDC 都有部署 Agent 集群。各个 IDC 内服务的压测,默认会就近选择压测 Agent,来减少网络延时对压测结果的干扰,使得压测结果更精准,压测问题定位更简单。

边缘计算节点 Agent

除了多机房部署之外,压测平台还在边缘计算节点上也部署了压测 Agent,来模拟各种不同地域不同运营商的流量请求,确保流量来源,流量分布更贴近真实情况。在压测平台上可以选择不同地域不同运营商,从全国各个地区发起压测流量。

压测监控

客户端监控

由于公司监控系统,最小时间粒度是 30s,30s 内的数据会聚合成一个点。这个时间粒度对于压测来说是比较难以接受的。因此,压测平台自己搭建了一套客户端监控系统。

  1. 每个 Request 都会以请求开始时间为基准打一个点。
  2. 单个 Agent 内,会将相同任务相同接口,1s 内的打点数据在本地做一次汇总,上报到 Kafka 中。
  3. 监控服务会消费 Kafka 中的打点数据,将多个 Agent 上报的数据进行再次汇总,然后写入数据库中。
  4. 前端监控报表会实时拉取数据库中监控汇总数据,绘制实时监控曲线。

在监控数据汇总流程中,对于请求响应时间的 PCT99 计算,是比较难处理的:

  • 目前压测平台采用的 T-Digest 算法来计算 1 秒内的 PCT99。
  • 整个时间段内的 PCT99 的计算,则是以 PCT & AGV 的方式聚合。即单位时间内通过 T-Digest 计算 PCT99;整个时间段内的 PCT99,则是对所有点的 PCT99 取平均值。
  • 整体计算方案已与公司服务端监控算法对齐,目的是减少客户端监控与服务端监控之间的 Gap,减少压测结果分析的干扰因素。

服务端监控

服务端监控,直接接入了Metric系统。

  • 在压测过程中,压测平台会提供整条链路上所有节点核心指标的监控大盘,并高亮显示可能存在风险的节点,来提供实时预警。
  • 对于每个节点也都提供了实时的,详细的监控曲线图。
  • 对于每个节点默认提供CPU、Memory、QPS和Error_Rate等核心监控指标,用户可以在Rhino平台上修改监控配置,增加其他自定义监控指标。

性能 Profile

在压测过程中,Rhino 平台还可以实时采集目标服务进程的性能 Profile,并通过火焰图的方式展示出来,方便用户进行性能问题分析和优化,如图。

压测熔断

为了应对线上压测风险,Rhino 平台提供两种熔断方式,来应对压测过程中的突发事件,来降低对线上服务造成的影响。

基于告警监控的熔断

每个压测任务,都可以关联调用链中任意服务的告警规则。在压测任务执行过程,Rhino 平台会主动监听告警服务。当调用链中有服务出现了告警,会立即停止压测。对于没有关联的告警,Rhino 平台也会记录下来,便于压测问题定位。

基于 Metric 的熔断

自定义监控指标及阈值,到达阈值后,也会自动停止压测。目前支持 CPU、Memory、 上游稳定性、错误日志,以及其他自定义指标。

压测实践

重大项目支撑

公司内重大项目的压测,压测平台都要积极参与,全力支撑的。其中,比较典型的项目有春节红包雨等活动。其流量规模巨大,流量突发性强,业务逻辑和网络架构复杂度高等等,都对压测平台提出不小的挑战。

在春节红包雨活动中,所有用户流量都经过运营商专线接入到网络边缘的汇聚机房,然后经过过滤和验证后,再转发到核心机房。其中各个 IDC 互为备份,其具体流量路线如图。在这里,不仅要验证后端各服务是否能承载预期流程,还要验证各个专线带宽,各个网关带宽及转发能力,各 IDC 承载能力以及之间带宽等等。

为此,我们将整个压测拆分成多个阶段,来简化压测复杂性,也降低压测问题定位的难度:

  • 通过拨测/CDN 压测来分别验证各个汇聚机房的承载能力,带宽,以及网关性能。
  • 在各个汇聚机房部署压测 Agent,来模拟用户流量分布,来压测部署在核心机房的后端服务性能。
  • 单接口单实例压测,单接口单机房压测,场景化全链路单机房压测,场景化全链路全资源压测,分阶段来验证后端服务性能。
  • 最后会通过全网拨测,来模拟真实春节红包雨高峰期流量,整体验证全系统性能。

线上流量调度

压测平台还实现了线上流量的定期调度,以达到线上实例自动压测的目的:

  • 将线上流量逐步调度到目标实例上,来测试服务实例性能极限,并给出实例性能 Profile,分析出实例性能瓶颈。
  • 通过长期的流量调度,来观察服务实例性能变化,以监控服务性能的变化趋势。
  • 通过不同资源水位下的实例性能,来预估出整个集群容量。完成对服务容量预估,以及线上风险评估。
  • 基于泳道化的流量调度,可以精确的预估服务集群容量。

其具体实现方案如下:

  • 修改负载均衡中目标实例的权重 Weight 值,逐步调大该 Weight 值,将更多流量集中打到目标实例,直到达到设置的停止阈值。

常态化压测

常态化压测通过周期定时化的自动化全链路压测,来实现以下目标:

  • 实时监控线上服务集群容量,防止服务性能劣化。
  • 实时监控线上链路容量,防止链路性能劣化。
  • 以无人值守的方式自动执行压测任务,并推送压测结果。
  • 在压测执行过程中,会根据调用链自动完成压测开关开启,发起压测流量。实时监控服务性能指标,并根据 Metric 及告警监控,自动完成压测熔断,以保证压测安全。

DevOps 流水线中的压测

服务在上线时,都会经过预发布、线上小流量灰度、线上全量发布。在这个过程中,我们可以通过线上测试 Case 以及灰度发布,来拦截服务线上功能缺陷。但是对于性能缺陷的拦截,却不够有效。

从线上故障跟踪系统里就可以发现,由于上线前没有做好性能压测,很多性能缺陷都逃逸到了线上。

为了拦截各种性能缺陷,压测平台完成了 DevOps 平台的打通。将压测服务在 DevOps 平台上注册成一个原子服务,研发人员可以将压测节点编排在任意流水线的任意位置,实现上线前的例行压测。DevOps 流水线中的压测,不仅可以帮助 RD 发现代码中的性能问题,还能与性能基线进行 Diff,来发现代码性能变坏的味道。

未来发展

业务深层次定制化

通用压测平台基本上能满足业务线日常压测需求。但在日常压测支撑过程中,发现不同业务线在压测时,但是仍然有大量的前置和后继工作需要人工来完成:

  • 如何更进一步降低业务方压测改造的成本?
  • 如何减少压测环境数据预置成本?
  • 如何快速完成压测数据清理?
  • 如何快速定位出性能问题?
  • 等等

压测与容量规划

  • 业务目前资源是否充足,其具体容量是多少;按照目前业务增长,其机器资源还能支撑多久?
  • 目前服务资源利用如何,是否可以优化,如何更进一步提升资源利用率,降低机器资源成本?
  • 某大型活动,需要申请多少资源?是否不需要压测,或者自动化利用线上流量数据,或者利用日常压测数据,就可以给出上述问题的结论?

应用系统的扩容相对比较简单,不需要时直接归还资源。但是 DB 等核心资源的扩容其实并不容易,而且资源不可以归还(数据不不可丢失)。因此,控制好资源的利用率和满足压测需求需要找一个平衡点。

压测与 SRE

  • 如何保证服务稳定性?
  • 如何监控服务性能劣化并及时预警,限流、超时、重试以及熔断等服务治理措施配置是否合理?
  • 如何配合混沌测试进行容灾演练,保证服务稳定性?

参考内容

  1. 全链路压测自动化实践 - 美团技术团队
  2. 全链路压测(Rhino)架构 - 字节跳动技术团队