9

【Redis实战专题】「性能监控系列」全方位探索Redis的性能监控以及优化指南

 1 year ago
source link: https://blog.51cto.com/alex4dream/6006818
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

Redis基本简介

Redis是一个开源(BSD 许可)、内存存储的数据结构服务器,可用作数据库,高速缓存和消息队列代理。它支持字符串、哈希表、列表、集合、有序集合等数据类型。内置复制、Lua 脚本、LRU收回、事务以及不同级别磁盘持久化功能,同时通过 Redis Sentinel 提供高可用,通过Redis Cluster提供自动分区。

Redis监控指标

Redis本身提供的INFO命令会返回丰富的实例运行监控信息,这个命令是Redis监控工具的基础。总体INFO命令的返回信息分成以下5大类。

  • 性能指标:Performance
  • 内存指标: Memory
  • 基本活动指标:Basic activity
  • 持久性指标: Persistence
  • 错误指标:Error

Redis基本的监控命令—INFO 命令

INFO命令在使用时,可以带一个参数section,这个参数的取值有好几种,相应的,INFO 命令也会返回不同类型的监控信息。如下图所示:

【Redis实战专题】「性能监控系列」全方位探索Redis的性能监控以及优化指南_sed

在监控Redis 运行状态时,INFO命令返回的结果非常有用。如果你想了解 INFO 命令的所有参数返回结果的详细含义。可以根据​ ​Redis中文官方文档-Info质量​​以及​ ​Redis官方文档​​进行介绍说明。这里,我给你提几个运维时需要重点关注的参数以及它们的重要返回结果。

性能指标:Performance指令

无论你是运行单实例或是集群,我建议你重点关注一下stat 、commandstat 、cpu 和 memory 这四个参数的返回结果,这里面包含了命令的执行情况(比如命令的执行次数和执行时间、命令使用的 CPU资源),内存资源的使用情况(比如内存已使用量、内存碎片率),CPU 资源使用情况等,这可以帮助我们判断实例的运行状态和资源消耗情况。

info stats

当执行​​info stats​​指令的时候所出现的效果:

【Redis实战专题】「性能监控系列」全方位探索Redis的性能监控以及优化指南_服务器_02

分析的大多数结果

total_connections_received:1083173900
total_commands_processed:8313824390
instantaneous_ops_per_sec:271
total_net_input_bytes:1356487222784
total_net_output2bytes:2360788536838
instantaneous_input_kbps:13.49
instantaneous_output_kbps:1.84
rejected_connections: 0
基础的相关的数据信息统计
  • total_connections_received:主要用于统计累计的接收的总体连接数。
  • total_commands_processed:主要用于统计累计的命令的处理指令数量。
  • instantaneous_ops_per_sec:瞬时的每秒的请求数量,主要用于跟踪已处理命令的吞吐量对于诊断Redis实例中高延迟的原因至关重要。
  • total_net_input_bytes:主要用于统计网络输入的总体字节数
  • total_net_output_bytes:主要用于统计网络输出的总体字节数
  • instantaneous_input_kbps:瞬时的较高的输入的kb指。
  • instantaneous_output_kbps:瞬时的较高的输出的kb指。
  • rejected_connections:被总体的拒接的连接数量。

持久性指标: Persistence

当你启用RDB或AOF功能时,你就需要重点关注下 persistence 参数的返回结果,你可以通过它查看到 RDB 或者 AOF 的执行情况。总体介绍一下持久化相关的监控信息,如下图所示:

【Redis实战专题】「性能监控系列」全方位探索Redis的性能监控以及优化指南_服务器_03
RDB相关的信息统计
  • rdb_changes_since_last_save:24455275 - 表明上次RDB保存以后改变的key次数
  • rdb_bgsave_in_progress:0 - 表示当前是否在进行bgsave操作。是为1
  • rdb_last_save_time:1673341911 - 上次保存RDB文件的时间戳
  • rdb_last_bgsave_status:ok - 上次保存的状态
  • rdb_last_bgsave_time_sec:9 - 上次保存的耗时
  • rdb_current_bgsave_time_sec:-1 - 目前保存RDB文件已花费的时间
  • rdb_last_cow_size:11120640 -
AOF相关的信息统计

文件状态监控相关的参数

  • aof_enabled : 一个标志值,记录了 AOF 是否处于打开状态,1代表打开。
  • aof_rewrite_in_progress : 一个标志值,记录了服务器是否正在创建AOF文件。
  • aof_rewrite_scheduled : 一个标志值,记录了在 RDB 文件创建完毕之后,是否需要执行预约的 AOF 重写操作。
  • aof_last_rewrite_time_sec : 最近一次创建 AOF 文件耗费的时长。
  • aof_current_rewrite_time_sec : 如果服务器正在创建 AOF 文件,那么这个域记录的就是当前的创建操作已经耗费的秒数。
  • aof_last_bgrewrite_status : 一个标志值,记录了最近一次创建 AOF 文件的结果是成功还是失败。
info clients
【Redis实战专题】「性能监控系列」全方位探索Redis的性能监控以及优化指南_sed_04

主要标识已连接客户端的信息,它包含以下域:

connected_clients:406
client_recent_max_input_buffer:4
client_recent_max_output_buffer:0
blocked_clients:40

针对于客户端的相关的结果信息介绍说明:

  • connected_clients : 已连接客户端的数量(不包括通过从属服务器连接的客户端)
  • client_longest_output_list : 当前连接的客户端当中,最长的输出列表
  • client_longest_input_buf : 当前连接的客户端当中,最大输入缓存
  • blocked_clients : 正在等待阻塞命令(BLPOP、BRPOP、BRPOPLPUSH)的客户端的数量
info commandstats

主要用于统计相关的命令指令的执行速度以及相关的指令执行频率。

【Redis实战专题】「性能监控系列」全方位探索Redis的性能监控以及优化指南_Redis_05

部分记录了各种不同类型的命令的执行统计信息,比如命令执行的次数、命令耗费的 CPU 时间、执行每个命令耗费的平均 CPU 时间等等。对于每种类型的命令,这个部分都会添加一行以下格式的信息:

cmdstat_multi:calls=2792,usec=188,usec_per_call=0.07
  • cmdstat_multi:代表着指令名称:cmdstat_指令名称
  • calls:代表着指令执行次数
  • usec:执行的指令时间(微秒)
  • usec_per_call:每秒的调用次数,用于计算频次
info cpu

cpu 部分记录了 CPU 的计算量统计信息,它包含以下域:

【Redis实战专题】「性能监控系列」全方位探索Redis的性能监控以及优化指南_Redis_06
  • used_cpu_sys : Redis 服务器耗费的系统 CPU时间 。
  • used_cpu_user : Redis 服务器耗费的用户 CPU时间 。
  • used_cpu_sys_children : 后台进程耗费的系统 CPU时间 。
  • used_cpu_user_children : 后台进程耗费的用户 CPU时间 。
user_cpu_sys 和user_cpu_sys_children

user_cpu_sys是Redis主进程消耗,user_cpu_sys_children是后台进程消耗(后台包括RDB文件的消耗,master,slave同步产生的消耗等等)

  • user指的是指令在 用户态(User Mode)所消耗的CPU时间
  • sys指的是指令在 核心态(Kernel Mode)所消耗的CPU时间。

发现这4个CPU指标是一个统计指标,比如used_cpu_sys是将所有Redis主进程在核心态所占用的CPU时间求和累计起来,所以它会随着Redis启动的时间长度不断累计上升,并在你重启Redis服务后清0。

info memory

memory 部分记录了服务器的内存信息,它包含以下域

【Redis实战专题】「性能监控系列」全方位探索Redis的性能监控以及优化指南_Redis_07
  • used_memory : 由Redis分配器分配的内存总量,以字节(byte)为单位
  • used_memory_human : 以用户可读的格式返回Redis分配的内存总量
  • used_memory_rss : 从操作系统的角度,返回 Redis 已分配的内存总量(俗称常驻集大小)。这个值和 top 、 ps 等命令的输出一致。
  • used_memory_peak : Redis的内存消耗峰值(以字节为单位)
  • used_memory_peak_human : 以用户可读的格式返回 Redis 的内存消耗峰值
  • used_memory_lua : Lua引擎所使用的内存大小(以字节为单位)
  • mem_fragmentation_ratio : used_memory_rss 和 used_memory 之间的比率
  • mem_allocator : 在编译时指定的, Redis 所使用的内存分配器。可以是 libc 、 jemalloc 或者 tcmalloc 。

在理想情况下, used_memory_rss 的值应该只比 used_memory 稍微高一点儿。
当 rss > used ,且两者的值相差较大时,表示存在(内部或外部的)内存碎片。
内存碎片的比率可以通过 mem_fragmentation_ratio 的值看出。

当 used > rss 时,表示Redis的部分内存被操作系统换出到交换空间了,在这种情况下,操作可能会产生明显的延迟。

当 Redis 释放内存时,分配器可能会,也可能不会,将内存返还给操作系统。如果 Redis 释放了内存,却没有将内存返还给操作系统,那么 used_memory 的值可能和操作系统显示的 Redis 内存占用并不一致。

基本活动指标:Basic activity

如果你在使用主从集群,就要重点关注下 replication 参数的返回结果,这里面包含了主从同步的实时状态。

info replication
【Redis实战专题】「性能监控系列」全方位探索Redis的性能监控以及优化指南_sed_08
主/从复制信息

role : 如果当前服务器没有在复制任何其他服务器,那么这个域的值就是 master ;否则的话,这个域的值就是 slave 。注意,在创建复制链的时候,一个从服务器也可能是另一个服务器的主服务器。

如果当前服务器是一个从服务器的话,那么这个部分还会加上以下域:

  • master_host : 主服务器的 IP 地址。
  • master_port : 主服务器的 TCP 监听端口号。
  • master_link_status : 复制连接当前的状态, up 表示连接正常, down 表示连接断开。
  • master_last_io_seconds_ago : 距离最近一次与主服务器进行通信已经过去了多少秒钟。
  • master_sync_in_progress : 一个标志值,记录了主服务器是否正在与这个从服务器进行同步。

如果同步操作正在进行,那么这个部分还会加上以下域:

  • master_sync_left_bytes : 距离同步完成还缺少多少字节数据。
  • master_sync_last_io_seconds_ago : 距离最近一次因为 SYNC 操作而进行 I/O 已经过去了多少秒。

如果主从服务器之间的连接处于断线状态,那么这个部分还会加上以下域:

  • master_link_down_since_seconds : 主从服务器连接断开了多少秒。

INFO 命令只是提供了文本形式的监控结果,并没有可视化,所以,在实际应用中,我们还可以使用一些第三方开源工具,将 INFO 命令的返回结果可视化。接下来,我要讲的 Prometheus ,就可以通过插件将 Redis 的统计结果可视化。

Prometheus的Redis-exporter监控

Prometheus监控体系

Prometheus是一套开源的系统监控报警框架。它的核心功能是从被监控系统中拉取监控数据,结合Grafana 工具,进行可视化展示。

监控数据可以保存到时序数据库中,以便运维人员进行历史查询。同时,Prometheus 会检测系统的监控指标是否超过了预设的阈值,一旦超过阈值,Prometheus 就会触发报警。

对于系统的日常运维管理来说,这些功能是非常重要的。而Prometheus已经实现了使用这些功能的工具框架。我们只要能从被监控系统中获取到监控数据,就可以用 Prometheus 来实现运维监控。

Redis-exporter插件

Prometheus 正好提供了插件功能来实现对一个系统的监控,我们把插件称为 exporter ,每一个 exporter实际是一个采集监控数据的组件。exporter采集的数据格式符合 Prometheus 的要求,Prometheus 获取这些数据后,就可以进行展示和保存了。

Redis-exporter

Redis-exporter就是用来监控 Redis的,它将 INFO 命令监控到的运行状态和各种统计信息提供给 Prometheus,从而进行可视化展示和报警设置。目前,Redis-exporter 可以支持 Redis 2.0 至 6.0 版本,适用范围比较广。

除了获取 Redis 实例的运行状态,Redis-exporter 还可以监控键值对的大小和集合类型数据的元素个数,这个可以在运行 Redis-exporter 时,使用 check-keys 的命令行选项来实现。

此外,我们可以开发一 Lua 脚本,定制化采集所需监控的数据。然后,我们使用 scripts 命令行选项,让 Redis-exporter 运行这个特定的脚本,从而可以满足业务层的多样化监控需求。

Redis-stat 和Redis Live工具

Redis-exporter 相比,这两个都是轻量级的监控工具。它们分别是用 Ruby 和 Python 开发的,也是将 INFO 命令提供的实例运行状态信息可视化展示。虽然这两个工具目前已经很少更新了,不过,如果你想自行开发 Redis 监控工具,它们都是不错的参考。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK