Redis 之从面试题到原理（基础篇）

2021-06-29

字数统计: 4.6k字 | 阅读时长≈ 16分

摘要：从面试题入手，带着问题来了解 Redis 中的各种原理。

前言：大家在平时的开发中或多或少都应该用过 Redis ，就拿我自己来说，虽然用了 Redis，但是在大多数的场景下，只是局限于如何使用，对其中的原理没有很深入的了解，这就导致，遇到问题的时候，无法快速定位、排查问题，甚至一开始就使用错误了，其实这个是开发中的大忌—-只知其然，而不知其所以然，为了避免出现类似的情况，接下来让我们来一起学习一下其中的原理吧！下面的内容我会分成3篇文章，分别是基础篇、进阶篇、拓展篇。A good day from now on!

文章关联

题目摘要

1、Redis 是什么?
2、Redis 的数据类型？
3、Redis 是单进程单线程的？
4、Redis 的持久化机制有哪些？各自的优缺点？
5、Redis 常见性能问题和解决方案：
6、Redis 过期键的删除策略？
7、Redis 的回收策略（淘汰策略）?
8、为什么 Redis 需要把所有数据放到内存中？
9、Redis 支持的 Java 客户端都有哪些？
10、Jedis 与 Redisson 对比有什么优缺点？
12、Pipeline 有什么好处，为什么要用 pipeline？
13、怎么理解 Redis 事务？
16、Redis 事务相关的命令有哪几个？
17、Redis key 的过期时间和永久有效分别怎么设置？
18、Redis 如何做内存优化？
20、Redis 回收进程如何工作的？
21、都有哪些办法可以降低 Redis 的内存使用情况呢？
22、Redis 的内存用完了会发生什么？
24、查看 Redis 使用情况及状态信息用什么命令？
25、怎么测试 Redis 的连通性？
28、修改配置不重启 Redis 会实时生效吗？
29、使用过 Redis 分布式锁么，它是什么回事？
30、使用过 Redis 做异步队列么，你是怎么用的？
31、Redis 最适合的场景？

1、Redis 是什么？

Redis 是一个 远程内存数据库，它不仅性能强劲，而且还具有 复制特性 以及 为解决问题而生 的独一无二的数据模型。Redis提供了 5种不同类型的数据结构，它可以存储键 (key) 与 5种不同类型的值 (value) 之间的映射(mapping)；可以将存储在内存的键值对数据待久化到硬盘，可以 使用复制特性来扩展读性能，还可以使用 客户端分片来扩展写性能，各式各样的问题都可以很自然地映射到这些数据结构上：Redis的数据结构致力千帮助用户解决问题，而不会像其他数据库那样，要求用户扭曲问题来适应数据库。除此之外，通过 复制、 持久化(persistence) 和 客户端分片(client-side sharding) 等特性，用户可以很方便地将 Redis 扩展成一个能够包含数百GB数据、每秒处理上百万次请求的系统。

2、Redis 的数据类型？

Redis 数据库里面的每个键值对（key-value pair）都是由对象（object）组成的，其中：

数据库 键 总是一个 字符串对象（string object）；
Redis 可以存储键与5种不同数据结构类型之间的映射，这5种数据结构类型分别为 String (字符串)、 List （列表）、Set（集合）、Hash（散列）、Zset（有序集合）。

结构类型	结构存储的值	结构的读写能力
String（字符串）	可以是字符串、整数或者浮点数	对整个字符串或者字符串的其中一部分执行操作；对整数和浮点数执行自增（increment）或者自减（decrement）操作。
List（列表）	一个链表，链表上的每个节点都包含了一个字符串	从链表的两端推入或者弹出元素；根据偏移量对链表进行修剪（trim）；读取单个或者多个元素；根据值查找或者移除元素。
Set（集合）	包含字符串的无序收集器，并且被包含的每个字符串都是独一无二、各不相同的	添加、获取、移除单个元素；检查一个元素是否存在于集合中；计算交集、并集、差集；从集合里面随机获取元素。
Hash（散列）	包含键值对的无序散列表	添加、获取、移除单个键值对；获取所有键值对。
Zset（有序集合）	字符串成员（member）与浮点数分值（score）之间的有序映射，元素的排列顺序由分值的大小决定	添加、获取、删除单个元素；根据分值范围或者成员来获取元素。

字符串

1) 简单动态字符串

Redis 没有直接使用 C 语言传统的字符串表示（以空字符结尾的字符数组，以下简称C
字符串），而是自己构建了一种名为 简单动态字符串（simple dynamic string，SDS）的抽象
类型，并将 SDS 用作 Redis 的默认字符串表示。

当 Redis 需要的不仅仅是一个字符串字面量，而是一个可以被修改的字符串值时，Redis
就会使用 SDS 来表示字符串值，比如在 Redis 的数据库里面，包含字符串值的键值对在底
层都是由 SDS 实现的。除了用来保存数据库中的字符串值之外，SDS 还被用作缓冲区（buffer）：AOF 模块中的 AOF 缓冲区，以及客户端状态中的输入缓冲区，都是由 SDS 实现的。

2) SDS 的定义

SDS 的结构如下：

struct sdshdr {
// 记录buf 数组中已使用字节的数量
// 等于SDS 所保存字符串的长度
int len;
// 记录buf 数组中未使用字节的数量
int free;
// 字节数组，用于保存字符串
char buf[];
};

下图展示了一个 SDS 示例：

SDS示例

free 属性的值为0，表示这个 SDS 没有分配任何未使用空间。
len 属性的值为5，表示这个 SDS 保存了一个五字节长的字符串。
buf 属性是一个 char 类型的数组，数组的前五个字节分别保存了 ‘R’、’e’、’d’、’i’、’s’ 五个字符，而最后一个字节则保存了空字符 ‘\0’。

SDS 遵循 C 字符串以空字符结尾的惯例，保存空字符的1 字节空间不计算在SDS 的 len 属性里面，并且为空字符分配额外的 1 字节空间，以及添加空字符到字符串末尾等操作，都是由SDS 函数自动完成的，所以这个空字符对于 SDS 的使用者来说是完全透明的。遵循空字符结尾这一惯例的好处是，SDS 可以直接重用一部分C 字符串函数库里面的函数。

3) C 字符串和 SDS 之间的区别

C 字符串	SDS
获取字符串长度的复杂度为O(N)	获取字符串长度的复杂度为O(1)
API 是不安全的，可能会造成缓冲区溢出	API 是安全的，不会造成缓冲区溢出
修改字符串长度N 次`必然`需要执行N 次内存重分配	修改字符串长度N 次`最多`需要执行N 次内存重分配
只能保存文本数据	可以保存文本或者二进制数据
可以使用所有<string.h> 库中的函数	可以使用一部分<string.h> 库中的函数

4) C 字符串和 SDS 之间的区别

比起C 字符串，SDS 具有以下优点：

常数复杂度获取字符串长度。
杜绝缓冲区溢出（空间预分配）。
减少修改字符串长度时所需的内存重分配次数（惰性空间释放）。
二进制安全。
兼容部分C 字符串函数。

补充

在 Redis 5.0 版本引入了一个新的数据类型–Streams(流信息)。它支持消费者组，借鉴 Kafka 设计的支持多播的可持久化消息队列(支持 group，不支持 partition)。
其他的数据类型的具体内容，这里就不在进行过多的展开了，后面会补上相关文章。
各个数据类型的存储最大存储大小：
- String：最大可以存储512M。
- List：元素个数最多为 2^32-1 个，即 4294967295 个。
- Set：元素个数最多为 2^32-1 个，即 4294967295 个。
- Hash：键值对个数最多为 2^32-1 个，即 4294967295 个。
- Zset：同 Sets。

3、Redis 是单进程单线程的？

Redis 服务器使用单线程单进程的方式来处理命令请求，并与多个客户端进行网络通信。Redis 网络请求模块使用了一个线程（所以不需考虑并发安全性），即一个线程处理所有网络请求，其他模块仍用了多个线程。

Redis 服务器是典型的一对多服务器程序：一个服务器可以与多个客户端建立网络连接，每个客户端可以向服务器发送命令请求，而服务器则接收并处理客户端发送的命令请求，并向客户端返回命令回复。

对于每个与服务器进行连接的客户端，服务器都为这些客户端建立了相应的 redis.h/ redisClient 结构（客户端状态），这个结构保存了客户端当前的状态信息．以及执行相关功能时需要用到的数据结构，其中包括：

客户端的套接字描述符。
客户端的名字。
客户端的标志值 (flag)。
指向客户端正在使用的数据库的指针，以及该数据库的号码。
客户端当前要执行的命令、命令的参数、命令参数的个数，以及指向命令实现函数的指针。
客户端的输入缓冲区和输出缓冲区。
客户端的复制状态信息，以及进行复制所需的数据结构。
客户端执行BRPOP、BLPOP等列表阻塞命令时使用的数据结构。
客户端的事务状态，以及执行WATCH命令时用到的数据结构。
客户端执行发布与订阅功能时用到的数据结构。
客户端的身份验证标志。
客户端的创建时间，客户端和服务器最后一次通信的时间，以及客户端的输出缓冲区大小超出软性限制(soft limit) 的时间。

Redis 服务器状态结构的 clients 属性是一个链表。这个链表保存了所有与服务器连接的客户端的状态结构，对客户端执行批量操作，或者查找某个指定的客户端，都可以通过遍历 clients 链表来完成。

关于 Redis 单线程的相关问题，因为内容较多，全部写到该篇文章中不太合适，所以这里重新写了一篇文章来进行总结：

Redis 是单线程的？？？

4、Redis 的持久化机制有哪些？各自的优缺点？

Redis 是一个内存数据库，数据都存储在内存中，这也是 Redis 非常快的原因之一。虽然速度提上来了，但是如果数据一直放在内存中，是非常容易丢失的。比如服务器关闭或宕机了，内存中的数据就丢失了。为了解决这一问题，Redis 提供了持久化机制。一种是 RDB 持久化（原理是将Redis 在内存中的数据库记录定时dump到磁盘上），另一种是 AOF (append only file) 持久化，（原理是将 Redis 的操作日志以追加的方式写入文件）。两种方式的持久化是可以同时存在的，但是当 Redis 重启时，AOF 文件会被优先用于重建数据。

1）RDB（默认）

RDB 持久化方式会在一个特定的间隔保存那个时间点的一个数据快照 (point-in-time snapshot)。

RDB持久化是指在指定的时间间隔内将内存中的数据集快照写入磁盘，实际操作过程是fork一个子进程，先将数据集写入临时文件，写入成功后，再替换之前的文件，用二进制压缩存储。

RDB持久化过程

RDB存在哪些优势？

一旦采用该方式，那么你的整个 Redis 数据库将只包含一个文件，这对于文件备份而言是非常完美的。比如，你可能打算每个小时归档一次最近24小时的数据，同时还要每天归档一次最近30天的数据。通过这样的备份策略，一旦系统出现灾难性故障，我们可以非常容易的进行恢复。
对于灾难恢复而言，RDB是非常不错的选择。因为我们可以非常轻松地将一个单独的文件压缩后再转移到其它存储介质上。
性能最大化。对于Redis的服务进程而言，在开始持久化时，它唯一需要做的只是fork出子进程，之后再由子进程完成这些持久化的工作，这样可以极大地避免服务进程执行IO操作了。
相比于AOF机制，如果数据集很大，RDB的启动效率会更高。

RDB的劣势？

如果你想保证数据的高可用性，即最大限度地避免数据丢失，那么RDB将不是一个很好的选择。因为系统一旦在定时持久化之前出现宕机现象，此前没有来得及写入磁盘的数据将丢失。
由于RDB是通过fork子进程来协助完成数据持久化工作的，因此，如果当数据集较大时，可能会导致整个服务器停止服务几百毫秒，甚至1秒钟。

2）AOF

AOF 持久化方式则会记录每一个服务器收到的写操作。在服务启动时，这些记录的操作会逐条执行从而重建出原来的数据。写操作命令记录的格式跟 Redis 协议一致，以追加的方式进行保存。

Redis 可以在 AOF 文件体积变得过大时，自动地在后台对 AOF进行重写，重写后的新 AOF 文件包含了恢复当前数据集所需的最小命令集合。

AOF 持久化以日志的形式记录服务器所处理的每一个写、删操作（注意查询操作不会被记录）。以文本的方式记录，可以打开文件看到详细的操作记录。

AOF持久化过程

AOF的优势？

该机制可以带来更高的数据安全性，即数据持久性。Redis 中提供了3种同步策略，及每秒同步，每修改同步和不同步。事实上，每秒同步也是异步完成的，其效率非常高。所差的是一旦系统出现宕机现象，那么这一秒种之内修改的数据将会丢失。而每修改同步，我们可以将其视为同步持久化，即每次发生的数据变化都会被立即记录到磁盘中。可以预见，这种方式在效率上是最低的。至于无同步，无需多言，大家都能正确的理解它。
由于该机制对日志文件的写入操作采用的是 append（在被选元素的结尾插入指定内容）模式，因此在写入过程中即使出现宕机现象，也不会破坏日志文件中已经存在的内容。然而如果我们本次操作只是写入了一半数据就出现了系统崩溃问题，不用担心，在 Redis 下一次启动之前，我们可以通过 redis-check-aof 工具来帮助我们解决数据一致性的问题。
如果日志文件过大，Redis可以自动启动 rewrite 机制。即 Reids 以 append 模式不断地修改数据并写入到老的磁盘文件中，同时 Redis 还会创建一个新的文件用于记录此期间有哪些修改命令被执行。因此在进行切换时可以更高的保证数据安全性。
AOF 包含一个格式清晰，易于理解的日志文件用于记录所有的修改操作。事实上，我们也可以通过该文件完成数据的重建。

AOF的劣势？

对于相同数量的数据集而言，AOF 文件通常要大于 RDB 文件，RDB 在恢复大数据集时速度比AOF 的恢复速度快。
根据同步策略的不同，AOF 在运行效率上往往会慢于 RDB。总之，每秒同步策略的效率是比较高的。同步禁用策略的效率和 RDB 一样高效。

二者选择的标准：就是看系统是愿意牺牲一些性能，换取更高的缓存一致性(AOF)，还是愿意写操作频繁的时候，不启动备份来换取更高的性能。待手动运行save的时候，再做备份(RDB)。RDB 这个就更有些最终一致性的意思了。

常用配置

RDB持久化配置

Redis 会将数据集的快照 dump 到 dump.rdb 文件中。此外，我们也可以通过配置文件来修改Redis 服务器 dump 快照的频率，在打开 redis.conf 文件之后，我们搜索 save 可以看到下面的配置信息：

save　　900　　1 #在900秒(15分钟)之后，如果至少有1个key发生变化，则dump内存快照

save　　300　　10 #在300秒(5分钟)之后，如果至少有10个key发生变化，则dunp内存快照

save　　60　　 10000　　#在60秒(1分钟)之后，如果至少有10000个key发生变化，则dump内存快照

AOF持久化配置

在 Redis 的配置文件中存在三种同步方式，它们分别是：

appendsync always #每次有数据修改发生时都会写入AOF文件

appendsync everysec #每秒同步一次，该策略为AOF的缺省策略

appendsync no #从不同步。高效但是数据不会被持久化

参考资料

《Redis实战》
《Redis设计与实现》

本文作者： th3ee9ine
本文链接： https://www.blog.ajie39.top/2021/06/29/Redis之从面试题到原理（基础篇）/
版权声明： 本博客所有文章除特别声明外，均采用 LICENSE 下的许可协议。转载请注明出处！