分布式¶

主要内容

分布式是为了解决规模和协作问题，但会引入网络、数据一致性和运维复杂度。缓存降低延迟，消息队列解耦和削峰，注册中心做服务发现，可靠性靠限流、熔断、降级、重试和可观测性。

参考文档¶

分布式与微服务.md、消息队列.md、注册中心与服务发现.md、redis.md、缓存.md、缓存一致性.md、可靠性与容错.md、分布式事务.md

分布式是为了解决规模和协作问题，但会引入网络、数据一致性和运维复杂度。缓存降低延迟，消息队列解耦和削峰，注册中心做服务发现，可靠性靠限流、熔断、降级、重试和可观测性。

我在整理这部分时的重点是把工具放回工程场景，而不是孤立记名词。一个工具出现，通常是为了解决某种复杂度：协作复杂度、上下文复杂度、运行环境复杂度、系统规模复杂度或信息获取复杂度。

飞书原文未在本模块设置集中独立的思考题，因此本节只保留原文知识整理，不额外添加题目。

单体系统的好处是简单。分布式的好处是可扩展、职责清晰、独立部署，但代价是网络失败、数据一致性和运维复杂度。

拆服务前应该问：

缓存提高性能，但引入一致性问题。常见问题：

常见策略：空值缓存、TTL 随机化、互斥锁、热点预热、更新数据库后删除缓存。

Redis 不只是缓存，也可做：

分布式锁要有过期时间和唯一 token，释放锁时确认是自己的锁。

消息队列用于异步、削峰、解耦、重试。

Kafka 更适合高吞吐日志流，RabbitMQ 路由和传统队列能力更强。

队列使用的核心难点：

服务实例会变化，所以不能把 IP 写死。注册中心提供服务注册、发现和健康检查。etcd、Consul、Zookeeper 背后都涉及一致性协调。

限流防止流量打爆系统；熔断防止依赖故障扩散；降级在部分功能不可用时保核心功能；重试要配合超时、退避和幂等。

跨服务事务很难。方案包括 2PC、TCC、Saga、事务消息和最终一致性。很多互联网业务会选择最终一致性加补偿，而不是追求全局强一致。

重复执行多次，结果和执行一次相同，称为幂等。消息队列和重试机制都强依赖幂等设计。

当下游持续失败，暂时停止请求它，避免故障扩散。

不是立刻一致，但系统最终会通过重试、补偿、消息等方式达到一致。