CAP简易理解

引言

一个分布式系统里面，节点组成的网络本来应该是连通的。然而可能因为一些故障，使得有些节点之间不连通了，整个网络就分成了几块区域。
数据就散布在了这些不连通的区域中。这就叫分区。当你一个数据项只在一个节点中保存，那么分区出现后，和这个节点不连通的部分就访问不到这个数据了。这时分区就是无法容忍的。提高分区容忍性的办法就是一个数据项复制到多个节点上，那么出现分区之后，这一数据项就可能分布到各个区里。容忍性就提高了。
然而，要把数据复制到多个节点，就会带来一致性的问题，就是多个节点上面的数据可能是不一致的。要保证一致，每次写操作就都要等待全部节点写成功，而这等待又会带来可用性的问题。总的来说就是，数据存在的节点越多，分区容忍性越高，但要复制更新的数据就越多，一致性就越难保证。为了保证一致性，更新所有节点数据所需要的时间就越长，可用性就会降低。

分布式系统中的CAP理论：

P：Partition tolerance，要有高容错性就必须要采用多节点，数据和节点越冗余，容错性越好。
A：Availability，这里的可用性指得是系统对操作的响应速度，对具体的操作响应越快，其可用性越高。
C：Consistency，要保证各节点数据的一致，在跨节点通信中，那必不可少需要对数据做校验和检查，如果通信节点越多（高容错），每个节点操作都做校验（强一致），那么响应速度就越慢（低可用）。

分布式系统CAP推论

performance -> sharding
最开始为什么需要分布式的系统，分布式系统提出最早就是为了解决用一堆廉价机器代替一台很NB机器的解决方案，也就是单机性能问题。
sharding -> failed tolerance
对于分布式系统，由于各组件是通过网络通信，是非常不可靠的，这时候就要考虑容错性，需要尽量需要建立一个具有容错性的系统。
tolerance -> replication
需要一个具有容错性的系统，最好的办法就是多准备几份数据，通过多副本的方式解决分布式系统容易出错的问题。
replication -> inconsistency
但是多副本就必然需要面临数据一致性的问题，在主数据被更新的时候有可能导致其他的副本没有同步过来，从而导致数据不一致。
consistency -> low performance
为了解决数据一致性问题，我们需要通过lock或者进行多个节点进行通信确认的方式来确保数据的一致性，但是这样就必然会降低整个系统的性能，特别是出现失联节点。