关于91大事件，我把缓存管理讲清楚后，很多问题都通了（建议反复看）

2026-03-06 12:21:01 粉丝私密区 0 166

开门见山：在91大事件的处理过程中，绝大部分让人抓狂的问题都和缓存有关——数据不一致、突发的延迟、服务雪崩、线上难以复现的Bug、缓存穿透/击穿/雪崩……把缓存管理讲清楚，很多链路就清晰了。下面把我多年实战沉淀的思路、诊断流程和落地策略写出来，建议反复看，逐条落地。

一、先理清缓存的“四象限”

缓存的类别：本地缓存（JVM/进程内）、分布式缓存（Redis/Memcached）、CDN/边缘缓存、浏览器缓存（HTTP 加缓存头）。
缓存的角色：加速查询、减轻后端压力、削峰填谷、隔离流量突发。
缓存失效的成本：延迟、错误率、数据库连接耗尽、数据不一致导致的业务误判。
常见模式：Cache-aside（懒加载）、Write-through/Write-back（写直写/回写）、Read-through、Refresh ahead（预刷新）。

二、常见问题、成因与解决方案（实践派） 1) 数据不一致 / 读到脏数据

成因：并发写入未同步清理缓存；先删缓存后写库/先写库后删缓存操作顺序出错；多写路径（微服务、异步任务）不同步。
解决：
统一写缓存约定：优先采取“写库 → 删除缓存”的幂等化策略，或采用“先删除缓存，再写库并在写成功后异步确认”的双保险，但需处理并发场景。
引入版本号（key 前缀 version），写改接口 bump 版本，旧 key 自动失效。
使用分布式事务或可靠消息（如果强一致绝对必要），但只在业务能承受复杂度时采纳。

2) 缓存穿透（大量请求击中不存在数据）

成因：请求未命中后直接穿透到 DB；攻击或爬虫构造不存在 key。
解决：
对不存在结果缓存空值（带短 TTL），避免频繁访问 DB。
对外接口做参数校验、限流和黑名单。
使用布隆过滤器在缓存层前拦截一定比例不存在的 key。

3) 缓存击穿（热点 key 在过期瞬间大量请求打到 DB）

成因：热点 key 同一时间失效，DB 负载骤增。
解决：
互斥锁/单线程生成缓存：第一个请求去 DB 填充，其他请求等待或返回旧值。
加入随机过期时间（TTL jitter），避免大批量同一刻过期。
热点预热或持续刷新（refresh ahead）策略。

4) 缓存雪崩（大量缓存集中失效或缓存服务宕机）

成因：统一 TTL、重启、配置错误、memcached/redis 宕机。
解决：
TTL 随机化，避免同一时间过期。
多级缓存：本地缓存 + 分布式缓存 + 后端 DB，出现缓存层问题时仍可用更慢路径降级。
缓存容量监控与容灾：redis 主备、sentinel/cluster、合理持久化配置。
限流与熔断，当缓存未命中率/延迟异常时，降级策略迅速生效。

5) 热 key / 集群不均衡（某个 key 占用大量资源）

成因：单个 key 值过大或过热导致 OOM 或性能退化。
解决：
对大对象做分片存储或缩短 TTL，避免单个 key 过大。
使用 LFU/LRU 或合适的淘汰策略，观察 evicted 值。
利用 proxy（twemproxy）或分片策略，均衡热写。

三、诊断流程（线上问题定位模板） 1) 先看指标：cache hit rate、miss rate、evictions、latency、memory usage、connected clients。 2) 回溯请求链：trace / 日志 / APM，找出是哪个服务/接口 first miss。 3) 检查 key 模式：是否有瞬时激增的同名 key、是否存在无TTL持久key、是否有超大 value。 4) 验证配置：maxmemory-policy、AOF/RDB 配置、持久化导致阻塞、集群slot迁移。 5) 小范围复现：用压力工具按真实流量模型重放，观察缓存行为。 6) 临时缓解：打开降级、限流、加本地缓存、延长关键 key TTL。

四、实用技术细节（直接可落地）

Redis 设置建议（常见）
maxmemory 与 maxmemory-policy（volatile-lru / allkeys-lru / volatile-ttl / allkeys-lfu 根据场景选）。
注意 AOF rewrite/持久化导致阻塞，必要时用 RDB snapshot 或调整 rewrite 策略。
监控 evicted 和 usedmemorypeak，定期查看 fragmentation_ratio。
Cache key 设计
统一命名空间：service:entity:id:v{version}
避免使用时间戳作为 key 的一部分（会爆 key 数），用版本号或变更序列号。
HTTP 缓存头
Cache-Control: public, max-age=3600, stale-while-revalidate=30
ETag + If-None-Match 做条件请求，减少传输量。
防击穿示例（伪代码）
尝试从缓存取
未命中则尝试加分布式锁（SETNX），持有锁读取 DB 并写入缓存；没有得到锁的线程等待/返回旧值/限时重试
空值缓存示例：对于空结果缓存短 TTL（比如 60s），避免穿透。