redis – 第8页 – Linux系统运维日志

CentOS 7.3 上用 docker 部署 redis 介绍

Redis最新的版本已经是4.0.1了，我查了下镜像也更新了。于是在本地部署体验下，当然，这篇文章不是来介绍Redis 4.0的新功能，而是来介绍如何用docker来部署的入门级课程。

1. Docker 安装启动

$ yum -y install docker-io
$ service docker start
$ chkconfig docker on

2. 下载镜像

$ docker pull redis

3. 启动容器

这里我把容器的映射建立在/docker/redis/data，/docker/redis/conf目录下面，这两个目录自己创建，配置文件redis.conf从别的途径获取的，启动前，需要对目录加入白名单，不然启动会失败，错误为没有权限

$ chcon -Rt svirt_sandbox_file_t /docker/redis/data

启动语句如下

docker run --name redis -p 6379:6379 
-v /docker/redis/conf/redis.conf:/usr/local/etc/redis/redis.conf 
-v /docker/redis/data:/data 
-d redis redis-server /usr/local/etc/redis/redis.conf

去掉上面的-d参数，可以看见启动日志，如果启动失败，则可以看见错误的日志，也可以用命令查看日志

$ docker logs redis，redis是容器的名字

4. 关闭防火墙

firewall-cmd --zone=public --add-port=6379/tcp --permanent
systemctl restart firewalld

5. 先在本地启动redis客户端

$ docker run -it --link redis:redis --rm redis redis-cli -h redis -p 6379

或者

$ docker exec -it redis /bin/bash
> redis-cli

未分类

6. 用工具进行连接

常用的工具是redis desktop manager，可以很好的管理redis，也可以在上面执行管理的命令。

Redis 复制、Sentinel的搭建和原理说明

背景：

Redis-Sentinel是Redis官方推荐的高可用性(HA)解决方案，当用Redis做Master-slave的高可用方案时，假如master宕机了，Redis本身(包括它的很多客户端)都没有实现自动进行主备切换，而Redis-sentinel本身也是一个独立运行的进程，它能监控多个master-slave集群，发现master宕机后能进行自动切换，更多的信息见前一篇说明。它的主要功能有以下几点：

不时地监控redis是否按照预期良好地运行;
如果发现某个redis节点运行出现状况，能够通知另外一个进程(例如它的客户端);
能够进行自动切换。当一个master节点不可用时，能够选举出master的多个slave(如果有超过一个slave的话)中的一个来作为新的master,其它的slave节点会将它所追随的master的地址改为被提升为master的slave的新地址。

Redis-Replication

1、搭建

复制的配置很简单，就一个参数：

slaveof <主数据库IP> <端口>

可以添加在配置文件里，也可以在命令行中执行。如主数据库IP是192.168.200.25 端口是6379：(配置多台从数据库的方法也一样)

slaveof 192.168.200.25 6379

注意：通过命令行进行的复制，在主从断开或则主从重启之后复制信息会丢失，即不能保证持久复制，需要再次执行slaveof。但是在配置文件里写死slaveof不会有该问题。默认情况下从库是只读的，不能进行修改，需要修改需要设置配置文件中的slave-read-only为no。在命令行里执行slaveof no one可以让一个从库变成主库。

2、原理（执行步骤）

①从数据库向主数据库发送sync命令。

②主数据库接收sync命令后，执行BGSAVE命令（保存快照），创建一个RDB文件，在创建RDB文件期间的命令将保存在缓冲区中。

③当主数据库执行完BGSAVE时，会向从数据库发送RDB文件，而从数据库会接收并载入该文件。

④主数据库将缓冲区的所有写命令发给从服务器执行。

⑤以上处理完之后，之后主数据库每执行一个写命令，都会将被执行的写命令发送给从数据库。

注意：在Redis2.8之前，主从断线或则重启之后再重连接，都需要做一次完整的sync操作（5步骤），即使断线期间只有几条的更新操作或则是没有操作，导致系统资源极度浪费。Redis2.8之后，会用一个psync来替换sync，不会进行完成的sync操作，只需要同步断线期间的记录。相关参数：repl-backlog-size、repl-backlog-ttl

大致的示意图如下：

未分类

3、相关的参数，注释掉的参数都是使用默认值。

################################# REPLICATION #################################
#复制选项，slave复制对应的master。
# slaveof <masterip> <masterport>

#如果master设置了requirepass，那么slave要连上master，需要有master的密码才行。masterauth就是用来配置master的密码，这样可以在连上master后进行认证。
# masterauth <master-password>

#当从库同主机失去连接或者复制正在进行，从机库有两种运行方式：1) 如果slave-serve-stale-data设置为yes(默认设置)，从库会继续响应客户端的请求。2) 如果slave-serve-stale-data设置为no，除去INFO和SLAVOF命令之外的任何请求都会返回一个错误”SYNC with master in progress”。
slave-serve-stale-data yes

#作为从服务器，默认情况下是只读的（yes），可以修改成NO，用于写（不建议）。
slave-read-only yes

#是否使用socket方式复制数据。目前redis复制提供两种方式，disk和socket。如果新的slave连上来或者重连的slave无法部分同步，就会执行全量同步，master会生成rdb文件。有2种方式：disk方式是master创建一个新的进程把rdb文件保存到磁盘，再把磁盘上的rdb文件传递给slave。socket是master创建一个新的进程，直接把rdb文件以socket的方式发给slave。disk方式的时候，当一个rdb保存的过程中，多个slave都能共享这个rdb文件。socket的方式就的一个个slave顺序复制。在磁盘速度缓慢，网速快的情况下推荐用socket方式。
repl-diskless-sync no

#diskless复制的延迟时间，防止设置为0。一旦复制开始，节点不会再接收新slave的复制请求直到下一个rdb传输。所以最好等待一段时间，等更多的slave连上来。
repl-diskless-sync-delay 5

#slave根据指定的时间间隔向服务器发送ping请求。时间间隔可以通过 repl_ping_slave_period 来设置，默认10秒。
# repl-ping-slave-period 10

#复制连接超时时间。master和slave都有超时时间的设置。master检测到slave上次发送的时间超过repl-timeout，即认为slave离线，清除该slave信息。slave检测到上次和master交互的时间超过repl-timeout，则认为master离线。需要注意的是repl-timeout需要设置一个比repl-ping-slave-period更大的值，不然会经常检测到超时。
# repl-timeout 60

#是否禁止复制tcp链接的tcp nodelay参数，可传递yes或者no。默认是no，即使用tcp nodelay。如果master设置了yes来禁止tcp nodelay设置，在把数据复制给slave的时候，会减少包的数量和更小的网络带宽。但是这也可能带来数据的延迟。默认我们推荐更小的延迟，但是在数据量传输很大的场景下，建议选择yes。
repl-disable-tcp-nodelay no

#复制缓冲区大小，这是一个环形复制缓冲区，用来保存最新复制的命令。这样在slave离线的时候，不需要完全复制master的数据，如果可以执行部分同步，只需要把缓冲区的部分数据复制给slave，就能恢复正常复制状态。缓冲区的大小越大，slave离线的时间可以更长，复制缓冲区只有在有slave连接的时候才分配内存。没有slave的一段时间，内存会被释放出来，默认1m。
# repl-backlog-size 5mb

#master没有slave一段时间会释放复制缓冲区的内存，repl-backlog-ttl用来设置该时间长度。单位为秒。
# repl-backlog-ttl 3600

#当master不可用，Sentinel会根据slave的优先级选举一个master。最低的优先级的slave，当选master。而配置成0，永远不会被选举。
slave-priority 100

#redis提供了可以让master停止写入的方式，如果配置了min-slaves-to-write，健康的slave的个数小于N，mater就禁止写入。master最少得有多少个健康的slave存活才能执行写命令。这个配置虽然不能保证N个slave都一定能接收到master的写操作，但是能避免没有足够健康的slave的时候，master不能写入来避免数据丢失。设置为0是关闭该功能。
# min-slaves-to-write 3

#延迟小于min-slaves-max-lag秒的slave才认为是健康的slave。
# min-slaves-max-lag 10

4、总结

Redis目前的复制是异步的，只保证最终一致性，而不是强一致性（主从数据库的更新还是分先后，先主后从）。要是一致性要求高的应用，目前还是读写都在主库上去。

Redis-Sentinel

需要对redis和sentinel的配置文件有rewrite的权限。

1、搭建

（环境：redis服务3个实例10086、10087、10088；sentinel服务3个监控：20086、20087、20088）

sentinel是一个”监视器”，根据被监视实例的身份和状态来判断该执行何种操作。通过给定的配置文件来发现主服务器的，再通过向主服务器发送的info信息来发现该主服务器的从服务器。Sentinel 实际上就是一个运行在 Sentienl 模式下的 Redis 服务器,所以我们同样可以使用以下命令来启动一个 Sentinel实例。运行方式如下：

redis-sentinel /path/to/sentinel.conf

参数配置文件：

port 20086      #默认端口26379

dir "/tmp"

logfile "/var/log/redis/sentinel_20086.log"

daemonize yes

#格式：sentinel <option_name> <master_name> <option_value>；#该行的意思是：监控的master的名字叫做T1（自定义）,地址为127.0.0.1:10086，行尾最后的一个2代表在sentinel集群中，多少个sentinel认为masters死了，才能真正认为该master不可用了。
sentinel monitor T1 127.0.0.1 10086 2  

#sentinel会向master发送心跳PING来确认master是否存活，如果master在“一定时间范围”内不回应PONG 或者是回复了一个错误消息，那么这个sentinel会主观地(单方面地)认为这个master已经不可用了(subjectively down, 也简称为SDOWN)。而这个down-after-milliseconds就是用来指定这个“一定时间范围”的，单位是毫秒，默认30秒。
sentinel down-after-milliseconds T1 15000

#failover过期时间，当failover开始后，在此时间内仍然没有触发任何failover操作，当前sentinel将会认为此次failoer失败。默认180秒，即3分钟。
sentinel failover-timeout T1 120000

#在发生failover主备切换时，这个选项指定了最多可以有多少个slave同时对新的master进行同步，这个数字越小，完成failover所需的时间就越长，但是如果这个数字越大，就意味着越多的slave因为replication而不可用。可以通过将这个值设为 1 来保证每次只有一个slave处于不能处理命令请求的状态。
sentinel parallel-syncs T1 1

#sentinel 连接设置了密码的主和从
#sentinel auth-pass <master_name> xxxxx

#发生切换之后执行的一个自定义脚本：如发邮件、vip切换等
##sentinel notification-script <master-name> <script-path>     ##不会执行，疑问？
#sentinel client-reconfig-script <master-name> <script-path>  ##这个会执行

注意：要是参数配置的是默认值，在sentinel运行时该参数会在配置文件文件里被删除掉，直接不显示。也可以在运行时用命令SENTINEL SET command动态修改，后面说明。

很显然，只使用单个sentinel进程来监控redis集群是不可靠的，当sentinel进程宕掉后(sentinel本身也有单点问题，single-point-of-failure)整个集群系统将无法按照预期的方式运行。所以有必要将sentinel集群，这样有几个好处：

即使有一些sentinel进程宕掉了，依然可以进行redis集群的主备切换；
如果只有一个sentinel进程，如果这个进程运行出错，或者是网络堵塞，那么将无法实现redis集群的主备切换（单点问题）;
如果有多个sentinel，redis的客户端可以随意地连接任意一个sentinel来获得关于redis集群中的信息。

本文开启sentinel集群用了3个实例，保证各个端口和目录不一致，配置文件如下：

sentinel_20086.conf ：

port 20086

dir "/var/lib/sentinel_20086"

logfile "/var/log/redis/sentinel_20086.log"

daemonize yes

sentinel monitor T1 127.0.0.1 10086 2

sentinel down-after-milliseconds T1 15000

sentinel failover-timeout T1 120000

sentinel parallel-syncs T1 1

#发生切换之后执行的一个自定义脚本：如发邮件、vip切换等
#sentinel notification-script <master-name> <script-path>

sentinel_20087.conf ：

port 20087

dir "/var/lib/sentinel_20087"

logfile "/var/log/redis/sentinel_20087.log"

daemonize yes

sentinel monitor T1 127.0.0.1 10086 2

sentinel down-after-milliseconds T1 15000

sentinel failover-timeout T1 120000

sentinel parallel-syncs T1 1

#发生切换之后执行的一个自定义脚本：如发邮件、vip切换等
#sentinel notification-script <master-name> <script-path>

sentinel_20088.conf ：

port 20088

dir "/var/lib/sentinel_20086"

logfile "/var/log/redis/sentinel_20088.log"

daemonize yes

sentinel monitor T1 127.0.0.1 10086 2

sentinel down-after-milliseconds T1 15000

sentinel failover-timeout T1 120000

sentinel parallel-syncs T1 1

#发生切换之后执行的一个自定义脚本：如发邮件、vip切换等
#sentinel notification-script <master-name> <script-path>

疑问：这里的参数 sentinel notification-script 好像切换的时候不会执行，参数sentinel client-reconfig-script 倒是会执行，可以用这个参数来替换上面的参数。

启动sentinel：

root@zhoujinyi:/etc/redis# redis-sentinel /etc/redis/sentinel_20086.conf 
root@zhoujinyi:/etc/redis# redis-sentinel /etc/redis/sentinel_20087.conf 
root@zhoujinyi:/etc/redis# redis-sentinel /etc/redis/sentinel_20088.conf

注意：当一个master配置为需要密码才能连接时，客户端和slave在连接时都需要提供密码。master通过requirepass设置自身的密码，不提供密码无法连接到这个master。slave通过masterauth来设置访问master时的密码。客户端需要auth提供密码，但是当使用了sentinel时，由于一个master可能会变成一个slave，一个slave也可能会变成master，所以需要同时设置上述两个配置项，并且sentinel需要连接master和slave，需要设置参数：sentinel auth-pass xxxxx。

启动后各个sentinel的日志信息如下：

3462:X 08 Jun 18:07:54.820 # Sentinel runid is b44bb512b3b756c97f48aff1dc37b54a30659ee9
3462:X 08 Jun 18:07:54.820 # +monitor master T1 127.0.0.1 10086 quorum 2  #主加入监控
3462:X 08 Jun 18:07:54.823 * +slave slave 127.0.0.1:10087 127.0.0.1 10087 @ T1 127.0.0.1 10086 #检测到一个slave并添加进slave列表
3462:X 08 Jun 18:07:54.823 * +slave slave 127.0.0.1:10088 127.0.0.1 10088 @ T1 127.0.0.1 10086 #检测到一个slave并添加进slave列表
3462:X 08 Jun 18:07:59.515 * +sentinel sentinel 127.0.0.1:20087 127.0.0.1 20087 @ T1 127.0.0.1 10086 #增加了一个sentinel
3462:X 08 Jun 18:08:01.820 * +sentinel sentinel 127.0.0.1:20088 127.0.0.1 20088 @ T1 127.0.0.1 10086 #增加了一个sentinel

关于更多的信息见：

+reset-master <instance details> -- 当master被重置时.
    +slave <instance details> -- 当检测到一个slave并添加进slave列表时.
    +failover-state-reconf-slaves <instance details> -- Failover状态变为reconf-slaves状态时
    +failover-detected <instance details> -- 当failover发生时
    +slave-reconf-sent <instance details> -- sentinel发送SLAVEOF命令把它重新配置时
    +slave-reconf-inprog <instance details> -- slave被重新配置为另外一个master的slave，但数据复制还未发生时。
    +slave-reconf-done <instance details> -- slave被重新配置为另外一个master的slave并且数据复制已经与master同步时。
    -dup-sentinel <instance details> -- 删除指定master上的冗余sentinel时 (当一个sentinel重新启动时，可能会发生这个事件).
    +sentinel <instance details> -- 当master增加了一个sentinel时。
    +sdown <instance details> -- 进入SDOWN状态时;
    -sdown <instance details> -- 离开SDOWN状态时。
    +odown <instance details> -- 进入ODOWN状态时。
    -odown <instance details> -- 离开ODOWN状态时。
    +new-epoch <instance details> -- 当前配置版本被更新时。
    +try-failover <instance details> -- 达到failover条件，正等待其他sentinel的选举。
    +elected-leader <instance details> -- 被选举为去执行failover的时候。
    +failover-state-select-slave <instance details> -- 开始要选择一个slave当选新master时。
    no-good-slave <instance details> -- 没有合适的slave来担当新master
    selected-slave <instance details> -- 找到了一个适合的slave来担当新master
    failover-state-send-slaveof-noone <instance details> -- 当把选择为新master的slave的身份进行切换的时候。
    failover-end-for-timeout <instance details> -- failover由于超时而失败时。
    failover-end <instance details> -- failover成功完成时。
    switch-master <master name> <oldip> <oldport> <newip> <newport> -- 当master的地址发生变化时。通常这是客户端最感兴趣的消息了。
    +tilt -- 进入Tilt模式。
    -tilt -- 退出Tilt模式。

2、原理

①sentinel集群通过给定的配置文件发现master，启动时会监控master。通过向master发送info信息获得该服务器下面的所有从服务器。

②sentinel集群通过命令连接向被监视的主从服务器发送hello信息(每秒一次)，该信息包括sentinel本身的ip、端口、id等内容，以此来向其他sentinel宣告自己的存在。

③sentinel集群通过订阅连接接收其他sentinel发送的hello信息，以此来发现监视同一个主服务器的其他sentinel；集群之间会互相创建命令连接用于通信，因为已经有主从服务器作为发送和接收hello信息的中介，sentinel之间不会创建订阅连接。

④sentinel集群使用ping命令来检测实例的状态，如果在指定的时间内（down-after-milliseconds）没有回复或则返回错误的回复，那么该实例被判为下线。

⑤当failover主备切换被触发后，failover并不会马上进行，还需要sentinel中的大多数sentinel授权后才可以进行failover，即进行failover的sentinel会去获得指定quorum个的sentinel的授权，成功后进入ODOWN状态。如在5个sentinel中配置了2个quorum，等到2个sentinel认为master死了就执行failover。

⑥sentinel向选为master的slave发送SLAVEOF NO ONE命令，选择slave的条件是sentinel首先会根据slaves的优先级来进行排序，优先级越小排名越靠前。如果优先级相同，则查看复制的下标，哪个从master接收的复制数据多，哪个就靠前。如果优先级和下标都相同，就选择进程ID较小的。

⑦sentinel被授权后，它将会获得宕掉的master的一份最新配置版本号(config-epoch)，当failover执行结束以后，这个版本号将会被用于最新的配置，通过广播形式通知其它sentinel，其它的sentinel则更新对应master的配置。

①到③是自动发现机制:

以10秒一次的频率，向被监视的master发送info命令，根据回复获取master当前信息。
以1秒一次的频率，向所有redis服务器、包含sentinel在内发送PING命令，通过回复判断服务器是否在线。
以2秒一次的频率，通过向所有被监视的master，slave服务器发送当前sentinel，master信息的消息。

④是检测机制，⑤和⑥是failover机制，⑦是更新配置机制。

注意：因为redis采用的是异步复制，没有办法避免数据的丢失。但可以通过以下配置来使得数据不会丢失：min-slaves-to-write 1 、 min-slaves-max-lag 10。一个redis无论是master还是slave，都必须在配置中指定一个slave优先级。要注意到master也是有可能通过failover变成slave的。如果一个redis的slave优先级配置为0，那么它将永远不会被选为master，但是它依然会从master哪里复制数据。

3、运行测试

上面已经搭好了一个简单的测试环境：redis服务3个实例10086（M）、10087（S）、10088（S）；sentinel服务3个监控：20086、20087、20088
现在进行一个故障转移的操作：0点30分14秒kill掉10086，Sentinel日志信息：

3466:X 09 Jun 00:30:29.067 # +sdown master T1 127.0.0.1 10086                      ##进入主观不可用(SDOWN)
3466:X 09 Jun 00:30:29.169 # +odown master T1 127.0.0.1 10086 #quorum 2/2          ##投票好了，达到了quorum，进入客观不可用(ODOWN)
3466:X 09 Jun 00:30:29.169 # +new-epoch 1                                          ##当前配置版本被更新
3466:X 09 Jun 00:30:29.169 # +try-failover master T1 127.0.0.1 10086               ##达到failover条件，正等待其他sentinel的选举
3466:X 09 Jun 00:30:29.179 # +vote-for-leader e106f1eaffdaa10babef3f5858a7cb8d05ffe9ea 1 ##选举
3466:X 09 Jun 00:30:29.183 # 127.0.0.1:20088 voted for e106f1eaffdaa10babef3f5858a7cb8d05ffe9ea 1 ##选举
3466:X 09 Jun 00:30:29.184 # 127.0.0.1:20086 voted for e106f1eaffdaa10babef3f5858a7cb8d05ffe9ea 1 ##选举
3466:X 09 Jun 00:30:29.241 # +elected-leader master T1 127.0.0.1 10086             ##执行failover
3466:X 09 Jun 00:30:29.242 # +failover-state-select-slave master T1 127.0.0.1 10086 ##开始要选择一个slave当选新master
3466:X 09 Jun 00:30:29.344 # +selected-slave slave 127.0.0.1:10088 127.0.0.1 10088 @ T1 127.0.0.1 10086 ##找到了一个适合的slave来担当新master
3466:X 09 Jun 00:30:29.344 * +failover-state-send-slaveof-noone slave 127.0.0.1:10088 127.0.0.1 10088 @ T1 127.0.0.1 10086 ##当把选择为新master的slave的身份进行切换
3466:X 09 Jun 00:30:29.447 * +failover-state-wait-promotion slave 127.0.0.1:10088 127.0.0.1 10088 @ T1 127.0.0.1 10086
3466:X 09 Jun 00:30:30.206 # +promoted-slave slave 127.0.0.1:10088 127.0.0.1 10088 @ T1 127.0.0.1 10086
3466:X 09 Jun 00:30:30.207 # +failover-state-reconf-slaves master T1 127.0.0.1 10086  ##Failover状态变为reconf-slaves
3466:X 09 Jun 00:30:30.273 * +slave-reconf-sent slave 127.0.0.1:10087 127.0.0.1 10087 @ T1 127.0.0.1 10086 ##sentinel发送SLAVEOF命令把它重新配置，重新配置到新主
3466:X 09 Jun 00:30:31.250 * +slave-reconf-inprog slave 127.0.0.1:10087 127.0.0.1 10087 @ T1 127.0.0.1 10086 ##slave被重新配置为另外一个master的slave，但数据复制还未发生
3466:X 09 Jun 00:30:31.251 * +slave-reconf-done slave 127.0.0.1:10087 127.0.0.1 10087 @ T1 127.0.0.1 10086 ##slave被重新配置为另外一个master的slave并且数据复制已经与master同步
3466:X 09 Jun 00:30:31.340 # -odown master T1 127.0.0.1 10086  ##离开客观不可用（ODOWN）
3466:X 09 Jun 00:30:31.340 # +failover-end master T1 127.0.0.1 10086  ##failover成功完成
3466:X 09 Jun 00:30:31.341 # +switch-master T1 127.0.0.1 10086 127.0.0.1 10088 ##master的地址发生变化
3466:X 09 Jun 00:30:31.341 * +slave slave 127.0.0.1:10087 127.0.0.1 10087 @ T1 127.0.0.1 10088 ##检测到一个slave并添加进slave列表
3466:X 09 Jun 00:30:31.351 * +slave slave 127.0.0.1:10086 127.0.0.1 10086 @ T1 127.0.0.1 10088
3466:X 09 Jun 00:30:46.362 # +sdown slave 127.0.0.1:10086 127.0.0.1 10086 @ T1 127.0.0.1 10088 ##原主进入主观不可用状态

通过日志信息看到，15秒（down-after-milliseconds）之后进行了failvoer操作，最后操作成功，10088变成了新主，可以通过info sentinel和sentinel maters查看主的信息。把原主开起来，日志信息：

3466:X 09 Jun 01:00:35.306 # -sdown slave 127.0.0.1:10086 127.0.0.1 10086 @ T1 127.0.0.1 10088  ##离开主观不可用状态
3466:X 09 Jun 01:00:45.249 * +convert-to-slave slave 127.0.0.1:10086 127.0.0.1 10086 @ T1 127.0.0.1 10088 ## 检测到一个slave并添加进slave列表

通过日志看到，原主起来之后变成了从。这里可以发现在redis配置文件（可写权限）的最后被添加了：

# Generated by CONFIG REWRITE
slaveof 127.0.0.1 10088

在新主上操作，可以同步复制到从库：

root@zhoujinyi:~# redis-cli -p 10088
127.0.0.1:10088> set dxy dxy
OK
127.0.0.1:10088> get dxy
"dxy"
127.0.0.1:10088> 
root@zhoujinyi:~# redis-cli -p 10086
127.0.0.1:10086> get dxy
"dxy"
127.0.0.1:10086> 
root@zhoujinyi:~# redis-cli -p 10087
127.0.0.1:10087> get dxy
"dxy"

上面测试说明sentinel自动failover成功。要是kill掉一个sentinel实例会怎么样？可以看日志：

3466:X 09 Jun 01:14:51.039 # +sdown sentinel 127.0.0.1:20088 127.0.0.1 20088 @ T1 127.0.0.1 10087  ##进入主观不可用
3466:X 09 Jun 01:15:32.610 # -sdown sentinel 127.0.0.1:20088 127.0.0.1 20088 @ T1 127.0.0.1 10087  ##进入客观不可用
3466:X 09 Jun 01:15:34.497 * -dup-sentinel master T1 127.0.0.1 10087 #duplicate of 127.0.0.1:20088 or a79f189986ab9d3940de48099e18a99abef4d595  ##删除指定master上的冗余sentinel时 (当一个sentinel重新启动时，可能会发生这个事件)
3466:X 09 Jun 01:15:34.498 * +sentinel sentinel 127.0.0.1:20088 127.0.0.1 20088 @ T1 127.0.0.1 10087  ##检测到一个sentinel，并进入列表

说明sentinel实例也被其他sentinel监视（上面介绍了各个sentinel相互通信），防止sentinel单点故障。通过日志看到这么多信息，这里需要注意下下面的概念：

① Leader选举:

其实在sentinels故障转移中，仍然需要一个“Leader”来调度整个过程：master的选举以及slave的重配置和同步。当集群中有多个sentinel实例时，如何选举其中一个sentinel为leader呢？

在配置文件中“can-failover”“quorum”参数，以及“is-master-down-by-addr”指令配合来完成整个过程。

A) “can-failover”用来表明当前sentinel是否可以参与“failover”过程，如果为“YES”则表明它将有能力参与“Leader”的选举，否则它将作为“Observer”，observer参与leader选举投票但不能被选举；

B) “quorum”不仅用来控制master ODOWN状态确认，同时还用来选举leader时最小“赞同票”数；

C) “is-master-down-by-addr”，在上文中以及提到，它可以用来检测“ip + port”的master是否已经处于SDOWN状态，不过此指令不仅能够获得master是否处于SDOWN，同时它还额外的返回当前sentinel本地“投票选举”的Leader信息(runid);

每个sentinel实例都持有其他的sentinels信息，在Leader选举过程中(当为leader的sentinel实例失效时，有可能master server并没失效，注意分开理解)，sentinel实例将从所有的sentinels集合中去除“can-failover = no”和状态为SDOWN的sentinels，在剩余的sentinels列表中按照runid按照“字典”顺序排序后，取出runid最小的sentinel实例，并将它“投票选举”为Leader，并在其他sentinel发送的“is-master-down-by-addr”指令时将推选的runid追加到响应中。每个sentinel实例都会检测“is-master-down-by-addr”的响应结果，如果“投票选举”的leader为自己，且状态正常的sentinels实例中，“赞同者”的自己的sentinel个数不小于(>=) 50% + 1,且不小与，那么此sentinel就会认为选举成功且leader为自己。

在sentinel.conf文件中，我们期望有足够多的sentinel实例配置“can-failover yes”，这样能够确保当leader失效时，能够选举某个sentinel为leader，以便进行failover。如果leader无法产生，比如较少的sentinels实例有效，那么failover过程将无法继续。

② failover过程:

在Leader触发failover之前，首先wait数秒(随即0~5)，以便让其他sentinel实例准备和调整(有可能多个leader??),如果一切正常，那么leader就需要开始将一个salve提升为master，此slave必须为状态良好(不能处于SDOWN/ODOWN状态)且权重值最低(redis.conf中)的，当master身份被确认后，开始failover

A）“+failover-triggered”: Leader开始进行failover，此后紧跟着“+failover-state-wait-start”，wait数秒。

B）“+failover-state-select-slave”: Leader开始查找合适的slave

C）“+selected-slave”: 已经找到合适的slave

D） “+failover-state-sen-slaveof-noone”: Leader向slave发送“slaveof no one”指令，此时slave已经完成角色转换，此slave即为master

E） “+failover-state-wait-promotition”: 等待其他sentinel确认slave

F）“+promoted-slave”：确认成功

G）“+failover-state-reconf-slaves”: 开始对slaves进行reconfig操作。

H）“+slave-reconf-sent”:向指定的slave发送“slaveof”指令，告知此slave跟随新的master

I）“+slave-reconf-inprog”: 此slave正在执行slaveof + SYNC过程，如过slave收到“+slave-reconf-sent”之后将会执行slaveof操作。

J）“+slave-reconf-done”: 此slave同步完成，此后leader可以继续下一个slave的reconfig操作。循环G）

K）“+failover-end”: 故障转移结束

L）“+switch-master”：故障转移成功后，各个sentinel实例开始监控新的master。

4、命令查看、修改

查看：

①：info命令

127.0.0.1:20086> info
# Server
redis_version:3.0.0   #版本号
redis_git_sha1:00000000
redis_git_dirty:0
redis_build_id:e7768317ba5bdca5
redis_mode:sentinel  #开启模式
os:Linux 3.16.0-71-generic x86_64  #系统位数
arch_bits:64
multiplexing_api:epoll
gcc_version:4.8.2
process_id:2767        #线程ID
run_id:319d8c58b9bf26c26ca040b53bdc0764a543648b
tcp_port:20086         #端口
uptime_in_seconds:923  #允许时间
uptime_in_days:0
hz:11
lru_clock:6041117
config_file:/etc/redis/sentinel_20086.conf   #配置文件

# Sentinel
sentinel_masters:1    
sentinel_tilt:0
sentinel_running_scripts:0
sentinel_scripts_queue_length:0
master0:name=T1,status=ok,address=127.0.0.1:10087,slaves=2,sentinels=3  #主name，主ip，多少个slave，多少个sentinel

也可以单个显示：info server、info sentinel。

②：sentinel masters，显示被监控的所有master以及它们的状态。要是有多个master就显示多个（复用，监控多个redis，即一个配置文件写多个），例子就1个master

127.0.0.1:20086> SENTINEL masters
1)  1) "name"   #master name
    2) "T1"
    3) "ip"     #master ip
    4) "127.0.0.1"
    5) "port"   #master port
    6) "10087"
    7) "runid"
    8) "508e7de9f5aa4fdb70126d62a54392fbefc0b11b"
    9) "flags"
   10) "master"
   11) "pending-commands"
   12) "0"
   13) "last-ping-sent"
   14) "0"
   15) "last-ok-ping-reply"
   16) "261"
   17) "last-ping-reply"
   18) "261"
   19) "down-after-milliseconds"  #ping的响应时间
   20) "15000"
   21) "info-refresh"
   22) "620"
   23) "role-reported"
   24) "master"
   25) "role-reported-time"
   26) "1205058"
   27) "config-epoch"             #配置文件版本号
   28) "2"
   29) "num-slaves"               #从的数量
   30) "2"
   31) "num-other-sentinels"      #除本身外还有多少个sentinel
   32) "2"
   33) "quorum"                   #投票数量
   34) "2"
   35) "failover-timeout"         #failover超时时间
   36) "120000"
   37) "parallel-syncs"           #多少个从同步
   38) "1"

③：sentinel master ，显示指定master的信息和状态。

127.0.0.1:20086> sentinel master T1
 1) "name"
 2) "T1"
 3) "ip"
 4) "127.0.0.1"
 5) "port"
 6) "10087"
 7) "runid"
 8) "508e7de9f5aa4fdb70126d62a54392fbefc0b11b"
 9) "flags"
10) "master"
11) "pending-commands"
12) "0"
13) "last-ping-sent"
14) "0"
15) "last-ok-ping-reply"
16) "909"
17) "last-ping-reply"
18) "909"
19) "down-after-milliseconds"
20) "15000"
21) "info-refresh"
22) "5820"
23) "role-reported"
24) "master"
25) "role-reported-time"
26) "1501345"
27) "config-epoch"
28) "2"
29) "num-slaves"
30) "2"
31) "num-other-sentinels"
32) "2"
33) "quorum"
34) "2"
35) "failover-timeout"
36) "120000"
37) "parallel-syncs"
38) "1"

④：sentinel slaves ，显示指定master的所有slave以及它们的状态。

127.0.0.1:20086> sentinel slaves T1
1)  1) "name"
    2) "127.0.0.1:10088"
    3) "ip"
    4) "127.0.0.1"
    5) "port"
    6) "10088"
    7) "runid"
    8) "380a4d9e32aefd3a00c7a64ba8bce451643044f1"
    9) "flags"
   10) "slave"
   11) "pending-commands"
   12) "0"
   13) "last-ping-sent"
   14) "0"
   15) "last-ok-ping-reply"
   16) "15"
   17) "last-ping-reply"
   18) "15"
   19) "down-after-milliseconds"
   20) "15000"
   21) "info-refresh"
   22) "7558"
   23) "role-reported"
   24) "slave"
   25) "role-reported-time"
   26) "1934978"
   27) "master-link-down-time"
   28) "0"
   29) "master-link-status"
   30) "ok"
   31) "master-host"
   32) "127.0.0.1"
   33) "master-port"
   34) "10087"
   35) "slave-priority"
   36) "100"
   37) "slave-repl-offset"
   38) "361068"
2)  1) "name"
    2) "127.0.0.1:10086"
    3) "ip"
    4) "127.0.0.1"
    5) "port"
    6) "10086"
    7) "runid"
    8) "9babf78ee2b420d2671b12f93b68c4d19a5edf08"
    9) "flags"
   10) "slave"
   11) "pending-commands"
   12) "0"
   13) "last-ping-sent"
   14) "0"
   15) "last-ok-ping-reply"
   16) "15"
   17) "last-ping-reply"
   18) "15"
   19) "down-after-milliseconds"
   20) "15000"
   21) "info-refresh"
   22) "7558"
   23) "role-reported"
   24) "slave"
   25) "role-reported-time"
   26) "1934978"
   27) "master-link-down-time"
   28) "0"
   29) "master-link-status"
   30) "ok"
   31) "master-host"
   32) "127.0.0.1"
   33) "master-port"
   34) "10087"
   35) "slave-priority"
   36) "100"
   37) "slave-repl-offset"
   38) "361068"

⑤：sentinel get-master-addr-by-name ，返回指定master的ip和端口，如果正在进行failover或者failover已经完成，将会显示被提升为master的slave的ip和端口。

27.0.0.1:20086> sentinel get-master-addr-by-name T1
1) "127.0.0.1"
2) "10087"

⑥：sentinel reset ：重置名字匹配该正则表达式的所有的master的状态信息，清除其之前的状态信息，以及slaves信息。比如删除一个slave或则sentinel时候，先关闭停止想要删除的进程，再执行：

sentinel reset *

⑦：sentinel failover 强制sentinel执行failover，并且不需要得到其他sentinel的同意。但是failover后会将最新的配置发送给其他sentinel。

127.0.0.1:20086> sentinel failover T1
OK
127.0.0.1:20086> sentinel get-master-addr-by-name T1
1) "127.0.0.1"
2) "10088"         #主被切换了

⑧：查看其他sentinel信息

sentinel sentinels T1

⑨：检查sentinel监控是否正确

sentinel ckquorum T1

⑩：配置文件丢失，重写配置文件

sentinel flushconfig

修改：包括参数

①：sentinel monitor ，监控一个新的redis master（这时通过sentinel masters可以看到多个）

127.0.0.1:20086> SENTINEL MONITOR T2 127.0.0.1 10089 2
OK

②：sentinel remove 命令sentinel放弃对某个master的监听。删掉上一个加的：

127.0.0.1:20086> sentinel remove T2
OK

③：sentinel set 这个命令很像Redis的CONFIG SET命令，用来改变指定master的配置。支持多个。

127.0.0.1:20086> sentinel masters
1)     ...
   37) "parallel-syncs"
   38) "1"
127.0.0.1:20086> sentinel set T1 parallel-syncs 2  #格式
OK
127.0.0.1:20086> sentinel masters
1)  ...
   37) "parallel-syncs"
   38) "2"

注意：只要是配置文件中存在的配置项，都可以用SENTINEL SET命令来设置。这个还可以用来设置master的属性，比如说quorum(票数)，而不需要先删除master，再重新添加master。

5、增加或删除Sentinel

增加一个sentinel很简单，直接配置好参数开启一个sentinel即可。添加时最好一个接着一个添加，这样可以预防网络隔离带来的问题，可以每个30秒添加一个sentinel。通过SENTINEL MASTER mastername（T1）中的num-other-sentinels来查看是否成功添加sentinel。删除一个sentinel稍微复杂一点，sentinel永远不会删除一个已经存在过的sentinel，即使它已经与组织失去联系。遵循如下步骤：

停止所要删除的sentinel
发送一个SENTINEL RESET * 命令给所有其它的sentinel实例，如果你想要重置指定master上面的sentinel，只需要把*号改为特定的名字，注意，需要一个接一个发，每次发送的间隔不低于30秒。
检查一下所有的sentinels是否都有一致的当前sentinel数。使用SENTINEL MASTER mastername 来查询。

首先 kill 掉一个sentinel

127.0.0.1:20086> sentinel master T1
 1) "name"
 2) "T1"
 3) "ip"
 4) "127.0.0.1"
 5) "port"
 6) "10088"
 ...
31) "num-other-sentinels"
32) "2"
...
127.0.0.1:20086> sentinel reset T1  #重新导入或则执行下面的
(integer) 1
127.0.0.1:20086> sentinel reset *   #因为只有监视一个主，所以和上面一致
(integer) 1
127.0.0.1:20086> sentinel masters
1)  1) "name"
    2) "T1"
    3) "ip"
    4) "127.0.0.1"
    5) "port"
    6) "10088"
...
...
   31) "num-other-sentinels"        #sentinel slave的数量
   32) "1"
...

6、删除旧master或者不可达slave

要永久地删除掉一个slave(有可能它曾经是个master)，你只需要发送一个SENTINEL RESET master命令给所有的sentinels，它们将会更新列表里能够正确地复制master数据的slave。遵循如下步骤：

停止所要删除的redis slave。
发送一个SENTINEL RESET * 命令给所有其它的sentinel实例，如果你想要重置指定master上面的slave，只需要把*号改为特定的名字。
检查一下所有的sentinels是否都有一致的当前sentinel数。使用SENTINEL MASTER mastername 来查询。

首先 kill 掉一个slave

127.0.0.1:20086> sentinel masters
1)  1) "name"
    2) "T1"
    3) "ip"
    4) "127.0.0.1"
    5) "port"
    6) "10088"
...
   29) "num-slaves"                   #多少个slave
   30) "2"
...
127.0.0.1:20086> sentinel reset T1    #重新导入或则执行下面的
(integer) 1
127.0.0.1:20086> sentinel reset *     #和上面一致
(integer) 1
127.0.0.1:20086> sentinel masters
1)  1) "name"
    2) "T1"
    3) "ip"
    4) "127.0.0.1"
    5) "port"
    6) "10088"
...
   29) "num-slaves"                   #多少个slave
   30) "1"
...

注意：要是再次开启关闭掉的redis slave会继续当成一个slave，若要彻底关闭slave，则需要修改关闭掉的redis配置文件中最后的：

# Generated by CONFIG REWRITE
slaveof 127.0.0.1 10088        #关闭改参数

7、总结

Redis-Sentinel是Redis官方推荐的高可用性(HA) 解决方案，Redis-sentinel本身也是一个独立运行的进程，它能监控多个master-slave集群，发现master宕机后能进行自动切换。Sentinel可以监视任意多个主服务器（复用），以及主服务器属下的从服务器，并在被监视的主服务器下线时，自动执行故障转移操作。

未分类

为了防止sentinel的单点故障，可以对sentinel进行集群化，创建多个sentinel。

未分类

分享一个删除redis中指定key模式的数据的shell脚本

有很多场景，我们都需要删除redis中某些具有相似特征的key,即使是线上环境也是。如果key数量很小容易处理，如果这些key很多很多，必须通过scan命令循环扫描一一删除，如果直接执行keys命令会堵死redis服务。下面这个脚本就是通过循环扫码key再删除，直至结束。

redis-del-keys.sh

#!/bin/bash
##redis主机IP
host=$1
##redis端口
port=$2
##key模式
pattern=$3
##游标
cursor=0
##退出信号
signal=0

##循环获取key并删除
while [ $signal -ne 1 ]
    do
        echo "cursor:${cursor}"
        sleep 2
        ##将redis scan得到的结果赋值到变量
        re=$(redis-cli -h $host -p $p -c  scan $cursor count 1000 match $pattern)
        ##以换行作为分隔符
        IFS=$'n' 
        #echo $re
        echo 'arr=>'
        ##转成数组
        arr=($re)
        ##打印数组长度
        echo 'len:'${#arr[@]}
        ##第一个元素是游标值
        cursor=${arr[0]}
        ##游标为0表示没有key了
        if [ $cursor -eq 0 ];then
            signal=1
        fi
        ##循环数组
    for key in ${arr[@]}
        do
            echo $key
            if [ $key != $cursor ];then
                echo "key:"$key
                ##删除key
                redis-cli -h $host -p $port -c del $key >/dev/null  2>&1
            fi
    done
done
echo 'done'

使用方式：

./redis-del-keys.sh localhost 6379 user:*

表示删除本机6379端口的redis中user:开头的所以key。

redis动态扩展内存

需求：将redis内存从1G扩展到3G，不中断服务

1、打开客户端

# redis-cli -p 6391

2、查看当前值

redis 127.0.0.1:6391> config get maxmemory
1) "maxmemory"
2) "1073741824"

3、设置内存为3G

redis 127.0.0.1:6391> config set maxmemory 3221225472

4、查看修改后的值

redis 127.0.0.1:6391> config get maxmemory
1) "maxmemory"
2) "3221225472"

5、修改配置文件，让配置重启有效

# vim /nh/redis/6391/conf/redis.conf
maxmemory 3221225472

Redis报错-ERR max number of clients reached

Redis报错redis报错 ERR max number of clients reached错误
我看啦一下连接数有500多个，可能是因为客户端接入太多
设置同一时间最大客户端连接数，默认无限制，Redis可以同时打开的客户端连接数为Redis进程可以打开的最大文件描述符数，如果设置 maxclients 0，表示不作限制。当客户端连接数到达限制时，Redis会关闭新的连接并向客户端返回max number of clients reached错误信息

解决方案

更改redis.conf配置文件

maxclients 1000

未分类

Redis 备份、容灾及高可用实战

Redis已经大量应用于各种互联网架构场景中，其优异的性能，良好的操作性，以及大量的场景应用案例，使得Redis备受瞩目。本文作者向大家介绍了一种Redis在非大集群分布式应用场景下的灾备解决方案。一起来品读一下吧~

一、Redis简单介绍

Redis是一个高性能的key-value非关系型数据库，由于其具有高性能的特性，支持高可用、持久化、多种数据结构、集群等，使其脱颖而出，成为常用的非关系型数据库。

此外，Redis的使用场景也比较多。

会话缓存（Session Cache）
Redis缓存会话有非常好的优势，因为Redis提供持久化，在需要长时间保持会话的应用场景中，如购物车场景这样的场景中能提供很好的长会话支持，能给用户提供很好的购物体验。
全页缓存
在WordPress中，Pantheon提供了一个不错的插件wp-redis，这个插件能以最快的速度加载你曾经浏览过的页面。
队列

Reids提供list和set操作，这使得Redis能作为一个很好的消息队列平台来使用。

我们常通过Reids的队列功能做购买限制。比如到节假日或者推广期间，进行一些活动，对用户购买行为进行限制，限制今天只能购买几次商品或者一段时间内只能购买一次。也比较适合适用。

排名
Redis在内存中对数字进行递增或递减的操作实现得非常好。所以我们在很多排名的场景中会应用Redis来进行，比如小说网站对小说进行排名，根据排名，将排名靠前的小说推荐给用户。
发布/订阅
Redis提供发布和订阅功能，发布和订阅的场景很多，比如我们可以基于发布和订阅的脚本触发器，实现用Redis的发布和订阅功能建立起来的聊天系统。

此外还有很多其它场景，Redis都表现的不错。

二、Redis使用中单点故障问题

正是由于Redis具备多种优良特新，且应用场景非常丰富，以至于Redis在各个公司都有它存在的身影。那么随之而来的问题和风险也就来了。Redis虽然应用场景丰富，但部分公司在实践Redis应用的时候还是相对保守使用单节点部署，那为日后的维护带来了安全风险。

在2015年的时候，曾处理过一个因为单点故障原因导致的业务中断问题。当时的Redis都未采用分布式部署，采用单实例部署，并未考虑容灾方面的问题。

当时我们通过Redis服务器做用户购买优惠商品的行为控制，但后来由于未知原因Redis节点的服务器宕机了，导致我们无法对用户购买行为进行控制，造成了用户能够在一段时间内多次购买优惠商品的行为。

这种宕机事故可以说已经对公司造成了不可挽回的损失了，安全风险问题非常严重，作为当时运维这个系统的我来说有必要对这个问题进行修复和在架构上的改进。于是我开始了解决非分布式应用下Redis单点故障方面的研究学习。

三、非分布式场景下Redis应用的备份与容灾

Redis主从复制现在应该是很普遍了。常用的主从复制架构有如下两种架构方案。

常用Redis主从复制

方案一

未分类

这是最常见的一种架构，一个Master节点，两个Slave节点。客户端写数据的时候是写Master节点，读的时候，是读取两个Slave，这样实现读的扩展，减轻了Master节点读负载。

方案二

未分类

这种架构同样是一个Master和两个Slave。不同的是Master和Slave1使用keepalived进行VIP转移。Client连接Master的时候是通过VIP进行连接的。避免了方案一IP更改的情况。

Redis主从复制优点与不足

优点

实现了对master数据的备份，一旦master出现故障，slave节点可以提升为新的master，顶替旧的master继续提供服务

实现读扩展。使用主从复制架构，一般都是为了实现读扩展。Master主要实现写功能， Slave实现读的功能

不足

架构方案一
当Master出现故障时，Client就与Master端断开连接，无法实现写功能，同时Slave也无法从Master进行复制。

未分类

此时需要经过如下操作(假设提升Slave1为Master):

在Slave1上执slaveof no one命令提升Slave1为新的Master节点。
在Slave1上配置为可写，这是因为大多数情况下，都将slave配置只读。
告诉Client端(也就是连接Redis的程序)新的Master节点的连接地址。
配置Slave2从新的Master进行数据复制。

架构方案二

当master出现故障后，Client可以连接到Slave1上进行数据操作，但是Slave1就成了一个单点，就出现了经常要避免的单点故障(single point of failure)。

未分类

之后需要经过如下操作：

在Slave1上执行slaveof no one命令提升Slave1为新的Master节点
在Slave1上配置为可写，这是因为大多数情况下，都将Slave配置只读
配置Slave2从新的Master进行数据复制

可以发现，无论是哪种架构方案都需要人工干预来进行故障转移(failover)。需要人工干预就增加了运维工作量，同时也对业务造成了巨大影响。这时候可以使用Redis的高可用方案-Sentinel

四、Redis Sentinel介绍

Redis Sentinel为Redis提供了高可用方案。从实践方面来说，使用Redis Sentinel可以创建一个无需人为干预就可以预防某些故障的Redis环境。

Redis Sentinel设计为分布式的架构，运行多个Sentinel进程来共同合作的。运行多个Sentinel进程合作，当多个Sentinel同一给定的master无法
再继续提供服务，就会执行故障检测，这会降低误报的可能性。

五、Redis Sentinel功能

Redis Sentinel在Redis高可用方案中主要作用有如下功能：

监控
Sentinel会不断的检查master和slave是否像预期那样正常运行
通知
通过API，Sentinel能够通知系统管理员、程序监控的Redis实例出现了故障
自动故障转移
如果master不像预想中那样正常运行，Sentinel可以启动故障转移过程，其中的一个slave会提成为master，其它slave会重新配置来使用新的master，使用Redis服务的应用程序，当连接时，也会被通知使用新的地址。
配置提供者
Sentinel可以做为客户端服务发现的认证源：客户端连接Sentinel来获取目前负责给定服务的Redis master地址。如果发生故障转移，Sentinel会报告新的地址。

六、Redis Sentinel架构

未分类

七、Redis Sentinel实现原理

Sentinel集群对自身和Redis主从复制进行监控。当发现Master节点出现故障时，会经过如下步骤：

1、Sentinel之间进行选举，选举出一个leader，由选举出的leader进行failover

2、Sentinel leader选取slave节点中的一个slave作为新的Master节点。对slave选举需要对slave进行选举的方法如下：

与master断开时间
如果与master断开的时间超过down-after-milliseconds(sentinel配置） * 10秒加上从sentinel判定master不可用到sentinel开始执行故障转移之间的时间，就认为该slave不适合提升为master。
slave优先级
每个slave都有优先级，保存在redis.conf配置文件里。如果优先级相同，则继续进行。
复制偏移位置
复制偏移纪录着从master复制数据复制到哪里，复制偏移越大表明从master接受的数据越多，如果复制偏移量也一样，继续进行选举
Run ID
选举具有最小Run ID的Slave作为新的Master

流程图如下：

未分类

3、Sentinel leader会在上一步选举的新master上执行slaveof no one操作，将其提升为master节点

4、Sentinel leader向其它slave发送命令，让剩余的slave成为新的master节点的slave

5、Sentinel leader会让原来的master降级为slave，当恢复正常工作，Sentinel leader会发送命令让其从新的master进行复制

以上failover操作均有sentinel自己独自完成，完全无需人工干预。

总结

使用sentinel实现了Redis的高可用，当master出现故障时，完全无需人工干预即可实现故障转移。避免了对业务的影响，提高了运维工作效率。

在部署sentinel的时候，建议使用奇数个sentinel节点，最少三个sentinel节点。

CentOs7.3搭建Redis-4.0.1 Cluster集群服务

环境

VMware版本号：12.0.0
CentOS版本：CentOS 7.3.1611
三台虚拟机(IP)：192.168.252.101,192.168.102..102,192.168.252.103

注意事项

安裝 GCC 编译工具不然会有编译不过的问题

$ yum install -y gcc g++ gcc-c++ make

升级所有的包，防止出现版本过久不兼容问题

$ yum -y update

关闭防火墙节点之前需要开放指定端口，为了方便，生产不要禁用

centos 6.x

$ service iptables stop # 关闭命令：

centos 7.x

$ systemctl stop firewalld.service # 停止firewall

集群搭建

安装 Redis

下载，解压，编译安装

cd /opt
$ wget http://download.redis.io/releases/redis-4.0.1.tar.gz
$ tar xzf redis-4.0.1.tar.gz
$ cd redis-4.0.1
$ make

如果因为上次编译失败，有残留的文件

$ make distclean

创建节点

首先在 192.168.252.101机器上 /opt/redis-4.0.1目录下创建 redis-cluster 目录

$ mkdir /opt/redis-4.0.1/redis-cluster

在 redis-cluster 目录下，创建名为7000、7001、7002的目录

$ cd /opt/redis-4.0.1/redis-cluster
$ mkdir 7000 7001 7002

分别修改这三个配置文件，把如下redis.conf 配置内容粘贴进去

$ vi 7000/redis.conf 
$ vi 7001/redis.conf
$ vi 7002/redis.conf

redis.conf 配置

port 7000
bind 192.168.252.101
daemonize yes
pidfile /var/run/redis_7000.pid
cluster-enabled yes
cluster-config-file nodes_7000.conf
cluster-node-timeout 10100
appendonly yes

redis.conf 配置说明

#端口7000,7001,7002
port 7000

#默认ip为127.0.0.1，需要改为其他节点机器可访问的ip，否则创建集群时无法访问对应的端口，无法创建集群
bind 192.168.252.101

#redis后台运行
daemonize yes

#pidfile文件对应7000，7001，7002
pidfile /var/run/redis_7000.pid

#开启集群，把注释#去掉
cluster-enabled yes

#集群的配置，配置文件首次启动自动生成 7000，7001，7002          
cluster-config-file nodes_7000.conf

#请求超时，默认15秒，可自行设置 
cluster-node-timeout 10100    

#aof日志开启，有需要就开启，它会每次写操作都记录一条日志
appendonly yes

···
接着在另外两台机器上(192.168.252.102，192.168.252.103)重复以上三步，只是把目录改为7003、7004、7005、7006、7007、7008对应的配置文件也按照这个规则修改即可

启动集群

#第一台机器上执行 3个节点
$ for((i=0;i<=2;i++)); do /opt/redis-4.0.1/src/redis-server /opt/redis-4.0.1/redis-cluster/700$i/redis.conf; done

#第二台机器上执行 3个节点
$ for((i=3;i<=5;i++)); do /opt/redis-4.0.1/src/redis-server /opt/redis-4.0.1/redis-cluster/700$i/redis.conf; done

#第三台机器上执行 3个节点 
$ for((i=6;i<=8;i++)); do /opt/redis-4.0.1/src/redis-server /opt/redis-4.0.1/redis-cluster/700$i/redis.conf; done

检查服务

检查各 Redis 各个节点启动情况

$ ps -ef | grep redis           //redis是否启动成功
$ netstat -tnlp | grep redis    //监听redis端口

安装 Ruby

$ yum -y install ruby ruby-devel rubygems rpm-build
$ gem install redis

创建集群

注意：在任意一台上运行不要在每台机器上都运行，一台就够了

Redis 官方提供了 redis-trib.rb 这个工具，就在解压目录的 src 目录中

$ /opt/redis-4.0.1/src/redis-trib.rb create --replicas 1 192.168.252.101:7000 192.168.252.101:7001 192.168.252.101:7002 192.168.252.102:7003 192.168.252.102:7004 192.168.252.102:7005 192.168.252.103:7006 192.168.252.103:7007 192.168.252.103:7008

出现以下内容

[root@localhost redis-cluster]# /opt/redis-4.0.1/src/redis-trib.rb create --replicas 1 192.168.252.101:7000 192.168.252.101:7001 192.168.252.101:7002 192.168.252.102:7003 192.168.252.102:7004 192.168.252.102:7005 192.168.252.103:7006 192.168.252.103:7007 192.168.252.103:7008
>>> Creating cluster
>>> Performing hash slots allocation on 9 nodes...
Using 4 masters:
192.168.252.101:7000
192.168.252.102:7003
192.168.252.103:7006
192.168.252.101:7001
Adding replica 192.168.252.102:7004 to 192.168.252.101:7000
Adding replica 192.168.252.103:7007 to 192.168.252.102:7003
Adding replica 192.168.252.101:7002 to 192.168.252.103:7006
Adding replica 192.168.252.102:7005 to 192.168.252.101:7001
Adding replica 192.168.252.103:7008 to 192.168.252.101:7000
M: 7c622ac191edd40dd61d9b79b27f6f69d02a5bbf 192.168.252.101:7000
   slots:0-4095 (4096 slots) master
M: 44c81c15b01d992cb9ede4ad35477ec853d70723 192.168.252.101:7001
   slots:12288-16383 (4096 slots) master
S: 38f03c27af39723e1828eb62d1775c4b6e2c3638 192.168.252.101:7002
   replicates f1abb62a8c9b448ea14db421bdfe3f1d8075189c
M: 987965baf505a9aa43e50e46c76189c51a8f17ec 192.168.252.102:7003
   slots:4096-8191 (4096 slots) master
S: 6555292fed9c5d52fcf5b983c441aff6f96923d5 192.168.252.102:7004
   replicates 7c622ac191edd40dd61d9b79b27f6f69d02a5bbf
S: 2b5ba254a0405d4efde4c459867b15176f79244a 192.168.252.102:7005
   replicates 44c81c15b01d992cb9ede4ad35477ec853d70723
M: f1abb62a8c9b448ea14db421bdfe3f1d8075189c 192.168.252.103:7006
   slots:8192-12287 (4096 slots) master
S: eb4067373d36d8a8df07951f92794e67a6aac022 192.168.252.103:7007
   replicates 987965baf505a9aa43e50e46c76189c51a8f17ec
S: 2919e041dd3d1daf176d6800dcd262f4e727f366 192.168.252.103:7008
   replicates 7c622ac191edd40dd61d9b79b27f6f69d02a5bbf
Can I set the above configuration? (type 'yes' to accept): yes

输入 yes

>>> Nodes configuration updated
>>> Assign a different config epoch to each node
>>> Sending CLUSTER MEET messages to join the cluster
Waiting for the cluster to join.........
>>> Performing Cluster Check (using node 192.168.252.101:7000)
M: 7c622ac191edd40dd61d9b79b27f6f69d02a5bbf 192.168.252.101:7000
   slots:0-4095 (4096 slots) master
   2 additional replica(s)
S: 6555292fed9c5d52fcf5b983c441aff6f96923d5 192.168.252.102:7004
   slots: (0 slots) slave
   replicates 7c622ac191edd40dd61d9b79b27f6f69d02a5bbf
M: 44c81c15b01d992cb9ede4ad35477ec853d70723 192.168.252.101:7001
   slots:12288-16383 (4096 slots) master
   1 additional replica(s)
S: 2919e041dd3d1daf176d6800dcd262f4e727f366 192.168.252.103:7008
   slots: (0 slots) slave
   replicates 7c622ac191edd40dd61d9b79b27f6f69d02a5bbf
M: f1abb62a8c9b448ea14db421bdfe3f1d8075189c 192.168.252.103:7006
   slots:8192-12287 (4096 slots) master
   1 additional replica(s)
S: eb4067373d36d8a8df07951f92794e67a6aac022 192.168.252.103:7007
   slots: (0 slots) slave
   replicates 987965baf505a9aa43e50e46c76189c51a8f17ec
S: 38f03c27af39723e1828eb62d1775c4b6e2c3638 192.168.252.101:7002
   slots: (0 slots) slave
   replicates f1abb62a8c9b448ea14db421bdfe3f1d8075189c
S: 2b5ba254a0405d4efde4c459867b15176f79244a 192.168.252.102:7005
   slots: (0 slots) slave
   replicates 44c81c15b01d992cb9ede4ad35477ec853d70723
M: 987965baf505a9aa43e50e46c76189c51a8f17ec 192.168.252.102:7003
   slots:4096-8191 (4096 slots) master
   1 additional replica(s)
[OK] All nodes agree about slots configuration.
>>> Check for open slots...
>>> Check slots coverage...
[OK] All 16384 slots covered.

关闭集群

这样也可以，推荐

$ pkill redis

循环节点逐个关闭

$ for((i=0;i<=2;i++)); do /opt/redis-4.0.1/src/redis-cli -c -h 192.168.252.101 -p 700$i shutdown; done

$ for((i=3;i<=5;i++)); do /opt/redis-4.0.1/src/redis-cli -c -h 192.168.252.102 -p 700$i shutdown; done

$ for((i=6;i<=8;i++)); do /opt/redis-4.0.1/src/redis-cli -c -h 192.168.252.103 -p 700$i shutdown; done

集群验证

连接集群测试

参数 -C 可连接到集群，因为 redis.conf 将 bind 改为了ip地址，所以 -h 参数不可以省略，-p 参数为端口号

我们在192.168.252.101机器redis 7000 的节点set 一个key

$ /opt/redis-4.0.1/src/redis-cli -h 192.168.252.101 -c -p 7000
192.168.252.101:7000> set name www.ymq.io
-> Redirected to slot [5798] located at 192.168.252.102:7003
OK
192.168.252.102:7003> get name
"www.ymq.io"
192.168.252.102:7003>

发现redis set name 之后重定向到192.168.252.102机器 redis 7003 这个节点

我们在192.168.252.103机器redis 7008 的节点get一个key

[root@localhost redis-cluster]# /opt/redis-4.0.1/src/redis-cli -h 192.168.252.103 -c -p 7008
192.168.252.103:7008> get name
-> Redirected to slot [5798] located at 192.168.252.102:7003
"www.ymq.io"
192.168.252.102:7003>

发现redis get name 重定向到192.168.252.102机器 redis 7003 这个节点

如果您看到这样的现象，说明集群已经是可用的了

检查集群状态

$ /opt/redis-4.0.1/src/redis-trib.rb check 192.168.252.101:7000

>>> Performing Cluster Check (using node 192.168.252.101:7000)
M: 7c622ac191edd40dd61d9b79b27f6f69d02a5bbf 192.168.252.101:7000
   slots:0-4095 (4096 slots) master
   2 additional replica(s)
S: 6555292fed9c5d52fcf5b983c441aff6f96923d5 192.168.252.102:7004
   slots: (0 slots) slave
   replicates 7c622ac191edd40dd61d9b79b27f6f69d02a5bbf
M: 44c81c15b01d992cb9ede4ad35477ec853d70723 192.168.252.101:7001
   slots:12288-16383 (4096 slots) master
   1 additional replica(s)
S: 2919e041dd3d1daf176d6800dcd262f4e727f366 192.168.252.103:7008
   slots: (0 slots) slave
   replicates 7c622ac191edd40dd61d9b79b27f6f69d02a5bbf
M: f1abb62a8c9b448ea14db421bdfe3f1d8075189c 192.168.252.103:7006
   slots:8192-12287 (4096 slots) master
   1 additional replica(s)
S: eb4067373d36d8a8df07951f92794e67a6aac022 192.168.252.103:7007
   slots: (0 slots) slave
   replicates 987965baf505a9aa43e50e46c76189c51a8f17ec
S: 38f03c27af39723e1828eb62d1775c4b6e2c3638 192.168.252.101:7002
   slots: (0 slots) slave
   replicates f1abb62a8c9b448ea14db421bdfe3f1d8075189c
S: 2b5ba254a0405d4efde4c459867b15176f79244a 192.168.252.102:7005
   slots: (0 slots) slave
   replicates 44c81c15b01d992cb9ede4ad35477ec853d70723
M: 987965baf505a9aa43e50e46c76189c51a8f17ec 192.168.252.102:7003
   slots:4096-8191 (4096 slots) master
   1 additional replica(s)
[OK] All nodes agree about slots configuration.
>>> Check for open slots...
>>> Check slots coverage...
[OK] All 16384 slots covered.

列出集群节点

列出集群当前已知的所有节点（node），以及这些节点的相关信息

$ /opt/redis-4.0.1/src/redis-cli -h 192.168.252.101 -c -p 7000

192.168.252.101:7000> cluster nodes

6555292fed9c5d52fcf5b983c441aff6f96923d5 192.168.252.102:7004@17004 slave 7c622ac191edd40dd61d9b79b27f6f69d02a5bbf 0 1502815268317 5 connected
44c81c15b01d992cb9ede4ad35477ec853d70723 192.168.252.101:7001@17001 master - 0 1502815268000 2 connected 12288-16383
2919e041dd3d1daf176d6800dcd262f4e727f366 192.168.252.103:7008@17008 slave 7c622ac191edd40dd61d9b79b27f6f69d02a5bbf 0 1502815269000 9 connected
7c622ac191edd40dd61d9b79b27f6f69d02a5bbf 192.168.252.101:7000@17000 myself,master - 0 1502815269000 1 connected 0-4095
f1abb62a8c9b448ea14db421bdfe3f1d8075189c 192.168.252.103:7006@17006 master - 0 1502815269000 7 connected 8192-12287
eb4067373d36d8a8df07951f92794e67a6aac022 192.168.252.103:7007@17007 slave 987965baf505a9aa43e50e46c76189c51a8f17ec 0 1502815267000 8 connected
38f03c27af39723e1828eb62d1775c4b6e2c3638 192.168.252.101:7002@17002 slave f1abb62a8c9b448ea14db421bdfe3f1d8075189c 0 1502815269327 7 connected
2b5ba254a0405d4efde4c459867b15176f79244a 192.168.252.102:7005@17005 slave 44c81c15b01d992cb9ede4ad35477ec853d70723 0 1502815270336 6 connected
987965baf505a9aa43e50e46c76189c51a8f17ec 192.168.252.102:7003@17003 master - 0 1502815271345 4 connected 4096-8191
192.168.252.101:7000>

打印集群信息

$ 192.168.252.101:7000> cluster info
cluster_state:ok
cluster_slots_assigned:16384
cluster_slots_ok:16384
cluster_slots_pfail:0
cluster_slots_fail:0
cluster_known_nodes:9
cluster_size:4
cluster_current_epoch:9
cluster_my_epoch:1
cluster_stats_messages_ping_sent:485
cluster_stats_messages_pong_sent:485
cluster_stats_messages_sent:970
cluster_stats_messages_ping_received:477
cluster_stats_messages_pong_received:485
cluster_stats_messages_meet_received:8
cluster_stats_messages_received:970
192.168.252.101:7000>

集群命令

语法格式

redis-cli -c -p port

集群

cluster info ：打印集群的信息
cluster nodes ：列出集群当前已知的所有节点（ node），以及这些节点的相关信息。

节点

cluster meet <ip> <port> ：将 ip 和 port 所指定的节点添加到集群当中，让它成为集群的一份子。
cluster forget <node_id> ：从集群中移除 node_id 指定的节点。
cluster replicate <node_id> ：将当前节点设置为 node_id 指定的节点的从节点。
cluster saveconfig ：将节点的配置文件保存到硬盘里面。

槽(slot)

cluster addslots <slot> [slot ...] ：将一个或多个槽（ slot）指派（ assign）给当前节点。
cluster delslots <slot> [slot ...] ：移除一个或多个槽对当前节点的指派。
cluster flushslots ：移除指派给当前节点的所有槽，让当前节点变成一个没有指派任何槽的节点。
cluster setslot <slot> node <node_id> ：将槽 slot 指派给 node_id 指定的节点，如果槽已经指派给另一个节点，那么先让另一个节点删除该槽>，然后再进行指派。
cluster setslot <slot> migrating <node_id> ：将本节点的槽 slot 迁移到 node_id 指定的节点中。
cluster setslot <slot> importing <node_id> ：从 node_id 指定的节点中导入槽 slot 到本节点。
cluster setslot <slot> stable ：取消对槽 slot 的导入（ import）或者迁移（ migrate）。

键

cluster keyslot <key> ：计算键 key 应该被放置在哪个槽上。
cluster countkeysinslot <slot> ：返回槽 slot 目前包含的键值对数量。
cluster getkeysinslot <slot> <count> ：返回 count 个 slot 槽中的键 。

Redis出现Could not get a resource from the pool错误关于连接数的分析

缘起：

redis.clients.jedis.exceptions.JedisConnectionException:Could not get a resource from the pool

生产环境的业务服务器报了大量上面的错误。Jedis无法从连接池中获取一个可用的连接，所有客户端与Redis服务端保持通信的连接都在工作中，没有闲置的连接可以使用。

目前生产环境每天Redis的QPS在5000左右，连接池配置20个最大连接数貌似是真的很小，是不是增大连接池的配置就解决问题了？出现这个问题的根本原因是：连接池中的Jedis对象是有限的，如果Jedis一直被占用，没有归还，如果这时需要操作redis，就需要等待可用的Jedis，当等待时间超过maxWaitMillis，就会抛出could not get a resource from pool。以下几种场景会出现这个问题：

并发实在太高了，连接池中的连接数确实太小了，大量的请求等待空闲的连接。
由于Redis是单线程，某个查询太慢，阻塞了其他操作命令的执行。
Redis内部问题导致处理客户端的命令慢了，比如RDB持久化时，fork进程做内存快照；AOF持久化时，AOF文件重写时会占用大量的CPU资源；
大量key同时过期。

以下数据来自于CAT对缓存的监控数据：蓝线表示出现Could not get a resource from the pool的次数，绿线表示QPS，从图中可以看出随着QPS的升高，出现异常的次数也在增高，难道真的是因为QPS高，连接池数小的原因？

未分类

CAT上按照小时为维度获取缓存出现异常的数据如下：

未分类

从以下数据可以发现缓存出现异常的时间段都比较集中，而且间隔的时间段貌似存在着某种规律。出现问题的时间段也并不是每天QPS最高的时候，QPS最高的几个时间段反而没有出现任何异常。取了一个出现异常的时间段的缓存情况如下

未分类

发现这个时间段有几个比较耗时的操作命令，但是这几个命令在其他时间段最大耗时就10多毫秒。业务上也不存在不合理使用Redis数据结构的问题。是该看看缓存的监控情况了（这一部分图片没截）。

找运维看了Redis的情况，发现Redis的某个时间段CPU飙到100%了，这个时间段和出现异常的时间段吻合。问题基本已经确认，这个时间段Redis内部一定发生了点什么，导致处理客户端的请求变慢了，导致大量的请求被阻塞，超过maxWaitMillis时，集中出现了大量的Could not get a resource from the pool异常。

生产环境Redis的持久化策略是AOF，AOF会将所有的写命令按照一定频率写入到日志文件中，随着AOF文件越来越大，里面会有大部分是重复命令或者可以合并的命令（比如100次incr = set key 100），重写可以减少AOF日志尺寸，减少内存占用，加快数据库恢复时间。AOF重写的过程会fork一个子进程，导致CPU飙到100%了。在这种情况下即使增大接池连接数也没什么卵用。这个问题的解决思路是减少AOF重写的频率，两种方式：

让Redis决定是否做AOF重写操作，根据auto-aof-rewrite-percentage和auto-aof-rewrite-min-size两个参数，auto-aof-rewrite-percentage：当前写入日志文件的大小超过上一次rewrite之后的文件大小的百分之多少时重写；auto-aof-rewrite-min-size：当前aof文件大于多少字节后才触发
用crontab定时重写，命令是：BGREWRITEAOF

上面提到慢查询会阻塞Redis，那么业务开发同学在使用时如何避免呢？

避免让Redis执行耗时长的命令，绝大多数读写命令的时间复杂度都在O(1)到O(N)之间，O(1)的命令是安全的，O(N)命令在使用时需要注意，如果N的数量级不可预知，应避免使用，如对一个field数未知的Hash数据执行HGETALL/HKEYS/HVALS命令，通常来说这些命令执行的很快，但如果这个Hash中的field数量极多，耗时就会成倍增长
避免在使用这些O(N)命令时发生问题主要有几个办法：不要把List当做列表使用，仅当做队列来使用，严格控制Hash、Set、Sorted Set的大小，将排序、并集、交集等操作放在客户端执行，禁止使用KEYS命令
避免一次性遍历集合类型的所有成员，而应使用SCAN类的命令进行分批的，游标式的遍历SSCAN/HSCAN/ZSCAN等命令，分别用于对Set/Hash/Sorted Set中的元素进行游标式遍历
尽可能使用长连接或连接池，避免频繁创建销毁连接，使用pipelining将连续执行的命令组合执行

redis增量订阅工具redis-canal分享

项目背景

该项目需求来源于点我达骑手实时压力系统，为了了解业务区块历史各个时点的压力状况，我们需要将历史数据持久化下来。

起初方案：数据双写

点我达压力系统基于spark，实时计算自然区域网格压力值并持久化到redis存储中，在写完redis后会再往hdfs上再写一份，用来保存历史数据。

未分类

改进的方案：数据订阅尝试通过redis的数据同步机制，实时获取增量数据，并同步到hive alt

未分类

项目介绍

名称：redis-canal
释义：canal的redis版本
语言：java
定位：基于redis数据库的aof的增量日志，提供数据的订阅和消费
依赖：kafka，jstorm(非必要)
源码：https://github.com/bigdataATdianwoba/redis-canal

工作原理

未分类

alt redis-canal会将自己伪装成redis的slave，来进行数据同步请求，master接收到开始同步的命令后则会将data changes生成的aof日志信息实时通过socket方式传输给redis-canal，redis-canal这边接收到change后，进行aof文件解析，进行数据封装，写入到我们大数据的kafka集群，已供后续应用消费使用

AOF数据格式

比如一条redis命令：“set name silas” 转换成aof格式如下：

$3 # 第一个参数长度为 4 
SET # 第一个参数 
$4 # 第二参数长度为 4 
name # 第二个参数 
$4 # 第三个参数长度为 4 
Jhon # 第二参数长度为 4

伪装slave过程

未分类

使用redis的info命令查看master信息

未分类

架构设计

未分类

源码详见github https://github.com/bigdataATdianwoba/redis-canal

运行

启动方式：

普通jar包启动方式

java -jar redis-canal-server.jar --name RedisCanal  
--host localhost  
--port 6379  
--password xxx  
--broker localhost:9092  
--topic redis.canal.data

jstorm启动方式

jstorm jar redis-canal-server.jar com.dianwoba.bigdata.redis.canal.bootstrap.jstorm.CanalTopo  
--name RedisCanal  
--host localhost  --port 6379  
--password xxx  
--broker localhost:9092  
--topic redis.canal.data

redis-canal启动时打印出来的aof日志信息

未分类

redis-canal默认从master最近给slave同步的offset开始同步，则接收到的第一条aof日志为“+CONTINUE”，该模式下，master不会在建立同步连接后将全量的rdb文件传输给slave，这样避免了长时间的等待，且全量同步一次rdb文件对master的性能是有消耗的。

一般来说生产环境redis架构大多为1主1备，redis-canal可以选择对主或者对从进行同步。唯一区别的地方在于，如果是对备库进行同步，备库自己是没有其他slave来同步自己的数据的，则备实例就不会有 master_repl_offset 标记，那么redis-canal开始进行订阅则必然会进行一次rdb全量数据传输，且备库在传输前会进行一次bgsave，这个对性能影响较大；如果是对master进行同步，则是增量同步，影响较小。

注意点：

redis实例每次接受到同步请求命令，不管是sync还是psync，都会触发一次自身的bgsave，这个目前避免不了。
实际生产上备库并没有业务应用的读写请求，对备库来说一次bgsave也不算啥，要是数据比较多的比如几十个G这种情况，那影响时间就有点较长了，开启同步建议在非业务高峰。

使用RedisLive实时监控Redis服务

RedisLive是由python编写的并且开源的图形化监控工具，非常轻量级，核心服务部分只包含一个web服务和一个基于redis自带的info命令以及monitor命令的监控服务，界面上只有一个基于BootStrap的web界面，非常简洁明了。除此之外，它还支持多实例监控，切换方便，而且配置起来也非常容易。监控信息支持redis存储和持久化存储(sqlite)两种方式。

注意：RedisLive是使用Python2.x编写，建议使用2.7，本次环境为Centos 7.2，默认Python版本2.7。

一、基础环境

1、实验环境

未分类

2、安装pip工具

wget https://bootstrap.pypa.io/get-pip.py

未分类

3、安装相关软件

pip install redis
pip install tornado
pip install python-dateutil
wKioL1mTCRjAXn9aAAEe--rjkY4165.png

未分类

二、安装Redis Live

1、下载软件

wget 
unzip master
mv RedisLive-master/ /usr/local/
cd /usr/local/RedisLive-master/src/
cp redis-live.conf.example redis-live.conf

2、修改配置文件

{
    "RedisServers":        
    [ 
        {
              "server": "127.0.0.1",                #redis监听地址，此处为本机
              "port" : 6379,                        #redis端口号
              "password" : "redispassword"          #redis认证密码
        }        
    ],

    "DataStoreType" : "redis",        

    "RedisStatsServer":    
    {
        "server" : "127.0.0.1",
        "port" : 6379,
        "password" : "redispassword"
    },

    "SqliteStatsStore" :
    {
        "path":  "db/redislive.sqlite"    #redis数据文件
    }
}

注意：RedisServers,段可以写多个，因此可以监控多个redis服务

3、启动服务

./redis-monitor.py --duration=30 &    //启动监控，duration是心跳时间 &放置在后台执行
./redis-live.py                       //启动web服务，默认监听8888端口，可以进行修改

默认web监听在8888，可进行修改，启动redis-monitor.py脚本，并将duration参数设置为 30
秒。duration参数指定了监控脚本的运行持续时间，例如设置为 30 秒，即经过 30 秒后，监控脚本会自动退出，并在终端打印 shutting down… 的提示。

未分类

4、制作定时任务

*/5 * * * * cd /usr/local/RedisLive-master/src/; ./redis-monitor.py --duration 20 >/dev/null 2>&1

三、查看图表

访问http://localhost:8888/index.html

未分类