MySQL 事务

简单来说，事务就是要保证一组数据库操作，要么全部成功，要么全部失败。在 MySQL 中，事务是在引擎层实现的。虽然 MySQL 是支持多引擎的系统，但不是所有的引擎都支持事务。比如 MySQL 原生的 MyISAM 引擎就不支持事务，这也是 MyISAM 被 InnoDB 取代的重要原因之一。

事务的属性

事务是由一组 SQL 语句组成的逻辑处理单元，事务具有以下 4 个属性，通常简称为事务的 ACID 属性：

原子性（Atomicity）
- 事务是一个原子操作单元，其对数据的修改，要么全都执行，要么全都不执行。
一致性（Consistent）
- 事务的一致性定义基本可以理解为是事务对数据完整性约束的遵循。这些约束可能包括主键约束、外键约束或是一些用户自定义约束。事务执行的前后都是合法的数据状态，不会违背任何的数据完整性。
- 当然这个含义中也隐含着对开发者的要求，就是不能写出错误的事务逻辑，比如银行的转账不能只加钱不减钱，这是应用层面的一致性要求。
隔离性（Isolation）
- 数据库系统提供一定的隔离机制，保证事务在不受外部并发操作影响的『独立』环境执行。这意味着事务处理过程中的中间状态对外部是不可见的。
持久性（Durable）
- 事务完成之后，它对于数据的修改是永久性的，即使出现系统故障也能够保持。

并发执行事务带来的问题

脏读（Dirty Reads）
- 一个事务正在对一条记录做修改，在这个事务完成并提交前，这条记录的数据就处于不一致状态；这时，另一个事务也来读取同一条记录，如果不加控制，第二个事务读取了这些『脏数据』，并据此做进一步的处理，就会与未提交的数据产生依赖关系。这种现象被形象地叫做『脏读』。
不可重复读（Non-Repeatable Reads）
- 一个事务在读取某些数据后的某个时间，再次读取以前读过的数据，却发现其读出的数据已经发生了改变、或某些记录已经被删除了！这种现象就叫做不可重复读。
幻读（Phantom Reads）
- 一个事务按相同的查询条件重新读取以前检索过的数据，却发现其他事务插入了满足其查询条件的新数据，这种现象就称为幻读。

为了解决这些问题，就有了『隔离级别』这个概念。在谈隔离级别之前，你首先要知道，你隔离得越严实，效率就会越低。因此很多时候，我们都要在二者之间寻找一个平衡点。

数据库的隔离级别

SQL 标准的事务隔离级别包括：读未提交（read uncommitted）、读提交（read committed）、可重复读（repeatable read）和串行化（serializable ）。下面逐一解释：

读未提交是指，一个事务还没提交时，它做的变更就能被别的事务看到。
读提交是指，一个事务提交之后，它做的变更才会被其他事务看到。
可重复读是指，一个事务执行过程中看到的数据，总是跟这个事务在启动时看到的数据是一致的。当然在可重复读隔离级别下，未提交变更对其他事务也是不可见的。
串行化，顾名思义是对于同一行记录，写会加『写锁』，读会加『读锁』。当出现『读写锁』冲突的时候，后访问的事务必须等前一个事务执行完成，才能继续执行。

不同隔离级别可能出现的问题如下表所示：

隔离级别	脏读	不可重复读	幻读
读未提交	Yes	Yes	Yes
读提交	No	Yes	Yes
可重复读	No	No	Yes
串行化	No	No	No

假设下面是按照时间顺序执行的两个事务。

我们来看看在不同的隔离级别下，事务 A 会有哪些不同的返回结果，也就是图里面 V1、V2、V3 的返回值分别是什么。

若隔离级别是『读未提交』，则 V1 的值是 2。这时候事务 B 虽然还没有提交，但是结果已经被 A 看到了。因此，V2、V3 也都是 2。
若隔离级别是『读提交』，则 V1 是 1，V2 的值是 2。事务 B 的更新在提交后才能被 A 看到。所以，V3 的值也是 2。
若隔离级别是『可重复读』，则 V1、V2 是 1，V3 是 2。V2 之所以还是 1，遵循的就是这个要求：事务在执行期间看到的数据前后必须是一致的。
若隔离级别是『串行化』，则在事务 B 执行『将 1 改成 2』的时候，会被锁住。直到事务 A 提交后，事务 B 才可以继续执行。所以从 A 的角度看， V1、V2 值是 1，V3 的值是 2。

我们可以看到在不同的隔离级别下，数据库行为是有所不同的。Oracle 数据库的默认隔离级别是『读提交』，而 MySQL 数据库的默认却是『可重复读』。因此对于一些从 Oracle 迁移到 MySQL 的应用，为保证数据库隔离级别的一致，你一定要记得将 MySQL 的隔离级别设置为『读提交』。

事务隔离的实现

在实现上，数据库里面会创建一个视图，访问的时候以视图的逻辑结果为准。在『可重复读』隔离级别下，这个视图是在事务启动时创建的，整个事务存在期间都用这个视图。在『读提交』隔离级别下，这个视图是在每个 SQL 语句开始执行的时候创建的。这里需要注意的是，『读未提交』隔离级别下直接返回记录上的最新值，没有视图概念；而『串行化』隔离级别下直接用加锁的方式来避免并行访问。

MVCC

在 MySQL 中，实际上每条记录在更新的时候都会同时记录一条回滚操作。记录上的最新值，通过回滚操作，都可以得到前一个状态的值。假设一个值从 1 被按顺序改成了 2、3、4，在回滚日志里面就会有类似下面的记录。

当前值是 4，但是在查询这条记录的时候，不同时刻启动的事务会有不同的 read-view。如上图所示，在视图 A、B、C 里面，这一个记录的值分别是 1、2、4，同一条记录在系统中可以存在多个版本，就是数据库的多版本并发控制（MVCC）。对于 read-view A，要得到 1，就必须将当前值依次执行图中所有的回滚操作。同时你会发现，即使现在有另外一个事务正在将 4 改成 5，这个事务跟 read-view A、B、C 对应的事务是不会冲突的。

你一定会问，回滚日志总不能一直保留吧，什么时候删除呢？答案是，在不需要的时候删除。那什么时候才不需要了呢？就是当系统里没有比这个回滚日志更早的 read-view 的时候。因此，建议你尽量不要使用长事务。长事务意味着系统里面会存在很老的事务视图。由于这些事务随时可能访问数据库里面的任何数据，所以在这个事务提交之前，数据库里面它可能用到的回滚日志都必须保留，这就会占用大量的存储空间。

在 MySQL 5.5 及以前的版本，回滚日志是跟数据字典一起放在 ibdata 文件里的，即使长事务最终提交，回滚段被清理，文件也不会变小。我见过数据只有 20GB，而回滚段有 200GB 的库。最终只好为了清理回滚段，重建整个库。

事务的属性

并发执行事务带来的问题

数据库的隔离级别

事务隔离的实现

MVCC

引用