行记录多版本的实现逻辑

   在初步了解 undo 系统purge 系统后,我们来进一步了解 InnoDB MVCC 逻辑。

   InnoDB MVCC 基于 Undo log 实现,通过主键记录上由 roll_ptr 串联的 undo reocrd 来构建访问需要的历史 record 版本。InnoDB 表数据组织方式是主键聚簇索引,通过 undo 构建老版本的逻辑也只是对于主键索引而言的,二级索引不存在对应 undo record。InnoDB 二级索引通过索引键值加主键值组合来唯一确定一条记录,因此对于一条二级索引记录(包括 delete_mark 状态的),其对应了一条 undo 覆盖历史范围存在的主键记录(可能是当前存在的版本,也可能是构建的历史版本)。

   同时,访问通过 ReadView 来判断历史版本的数据可见性。对于主键记录实际上是判断历史主键 record 上的 tid。因此,当二级索引记录无法通过其 page 上的 max tid 过滤时,需要找到(可能需要通过 undo 构建)其对应的主键记录版本再来判断可见性。

   InnoDB 通过函数 trx_undo_prev_version_build 构建聚集索引记录的前一个版本,这个函数主要会使用在:

  • MVCC 读取路径(row_vers_build_for_[semi_]consistent_read);
  • Purge/Undo 路径(row_vers_old_has_index_entry);
  • 二级索引隐式锁判断(row_vers_find_matching
  1. 构建老版本记录

trx_undo_prev_version_build 用来构建前一个版本的主键索引记录

  1
  2
  3
  4
  5
  6
  7
  8
  9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
 24
 25
 26
 27
 28
 29
 30
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 43
 44
 45
 46
 47
 48
 49
 50
 51
 52
 53
 54
 55
 56
 57
 58
 59
 60
 61
 62
 63
 64
 65
 66
 67
 68
 69
 70
 71
 72
 73
 74
 75
 76
 77
 78
 79
 80
 81
 82
 83
 84
 85
 86
 87
 88
 89
 90
 91
 92
 93
 94
 95
 96
 97
 98
 99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
/** 构建聚集索引记录某个版本 rec 的再前一个版本。
  调用者必须持有聚集索引记录索引页的锁。*/
bool trx_undo_prev_version_build(const rec_t *index_rec, mtr_t *index_mtr,
                                 const rec_t *rec, const dict_index_t *index,
                                 ulint *offsets, mem_heap_t *heap,
                                 rec_t **old_vers, mem_heap_t *v_heap,
                                 const dtuple_t **vrow, ulint v_status,
                                 lob::undo_vers_t *lob_undo) {
  trx_undo_rec_t *undo_rec = nullptr;
  dtuple_t *entry;
  trx_id_t rec_trx_id;
  ulint type;
  undo_no_t undo_no;
  table_id_t table_id;
  trx_id_t trx_id;
  roll_ptr_t roll_ptr;
  upd_t *update = nullptr;
  byte *ptr;
  ulint info_bits;
  ulint cmpl_info;
  bool dummy_extern;
  byte *buf;

  roll_ptr = row_get_rec_roll_ptr(rec, index, offsets);

  *old_vers = nullptr;

  /* insert undo(说明是串上第一个记录)*/
  if (trx_undo_roll_ptr_is_insert(roll_ptr)) { return true;}

  rec_trx_id = row_get_rec_trx_id(rec, index, offsets);

  bool is_temp = index->table->is_temporary();

  // 获取 undo_rec 时会判断 rec_trx_id 是否被 purge_sys->view 可见
  if (trx_undo_get_undo_rec(roll_ptr, rec_trx_id, heap, is_temp,
                            index->table->name, &undo_rec)) {
    // 当前 rec_trx_id 在 purge_sys->view 可见,更老的(prev)undo 可能版本都被处理了
    if (v_status & TRX_UNDO_PREV_IN_PURGE) {
      /* 函数被 purge 流程中调用的特殊情况,用于 virtual row 处理 */
      undo_rec = trx_undo_get_undo_rec_low(roll_ptr, heap, is_temp);
    } else {
      /* 正常情况,更老一个版本的 undo 不安全,到当前版本为止 */
      return false;
    }
  }

  // 解析获取到的对应上一版本的 undo rec
  type_cmpl_t type_cmpl;
  ptr = trx_undo_rec_get_pars(undo_rec, &type, &cmpl_info, &dummy_extern,
                              &undo_no, &table_id, type_cmpl);
  if (table_id != index->table->id) return true; /*table 被重建,purge 遇到老 id 的 undo*/

  ptr = trx_undo_update_rec_get_sys_cols(ptr, &trx_id, &roll_ptr, &info_bits);

  ptr = trx_undo_rec_skip_row_ref(ptr, index);
  // 通过 undo 构建 upd_t *update
  ptr = trx_undo_update_rec_get_update(ptr, index, type, trx_id, roll_ptr,
                                       info_bits, heap, &update, lob_undo,
                                       type_cmpl);
  ut_a(ptr);

  if (row_upd_changes_field_size_or_external(index, offsets, update)) {
    /* 如果前一个版本记录是被标记删除的,并且存在 disowned 的 blob,
      则需要判断可见性这个版本记录的可见性,
      如果 purge 可见,将其视为 missing history 处理,
      这是因为上一版本记录 disowned 的 blob 可能已经被 purge 了。

      可以省略 row_upd_changes_disowned_external(update) 调用,
      但这样 purge_sys->latch 加锁更多,性能开销可更高。*/

    if ((update->info_bits & REC_INFO_DELETED_FLAG) &&
         row_upd_changes_disowned_external(update)) {
      bool missing_ext;

      rw_lock_s_lock(&purge_sys->latch, UT_LOCATION_HERE);
      missing_ext = purge_sys->view.changes_visible(trx_id, index->table->name);
      rw_lock_s_unlock(&purge_sys->latch);

      if (missing_ext) {
        /* treat as a fresh insert, not to cause assertion error at the caller. */
        if (update != nullptr) {
          update->reset();
        }
        return true;
      }
    }

    // 通过 undo 还原
    entry = row_rec_to_index_entry(rec, index, offsets, heap);
    row_upd_index_replace_new_col_vals(entry, index, update, heap);

    buf = static_cast<byte *>(mem_heap_alloc(heap, rec_get_converted_size(index, entry)));
    *old_vers = rec_convert_dtuple_to_rec(buf, index, entry);
  } else {
    buf = static_cast<byte *>(mem_heap_alloc(heap, rec_offs_size(offsets)));
    *old_vers = rec_copy(buf, rec, offsets);
    // 通过 undo 还原
    row_upd_rec_in_place(*old_vers, index, offsets, update, nullptr);
  }

  /* Set the old value (which is the after image of an update) in the
  update vector to dtuple vrow */
  if (v_status & TRX_UNDO_GET_OLD_V_VALUE)
    row_upd_replace_vcol((dtuple_t *)*vrow, index->table, update, false, nullptr, nullptr);

  if (vrow && !(cmpl_info & UPD_NODE_NO_ORD_CHANGE)) {
    // 构建老版本的 virtual row
    // ...
  }

  if (update != nullptr) {
    update->reset();
  }

  return true;
}
  1. MVCC 一致性读取路径

以 row_search_mvcc 查询为例,当 cursor 定位到确切 user_record 上后,如果是无锁一致性 MVCC 读并且隔离级别大于 READ_UNCOMMITTED 时,此时会通过查询所持有的 readview 判断对应记录是否可见(lock_clust/sec_rec_cons_read_sees)。对于主键索引,如果此记录不可见,则会通过 row_vers_build_for_consistent_read 尝试构建目标 readview 可见的历史行记录。对于二级索引无法判断可见性的,还需要回表到主键上按主键逻辑处理,

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
/** 构建一致性读取应该看到的聚集索引记录的版本。
   函数假设当前 rec 上的事务 id 是一致性读取不应该看到的。*/
dberr_t row_vers_build_for_consistent_read(
    const rec_t *rec, // 聚集索引中的记录,调用者必须持有 page latch,即该记录版本堆栈的顶部
    mtr_t *mtr, // 持有 rec 上锁的 mtr,并且还将持有 purge_view 上的锁
    dict_index_t *index, ulint **offsets,
    ReadView *view, // 目标视图
    mem_heap_t **offset_heap, mem_heap_t *in_heap, rec_t **old_vers,
    const dtuple_t **vrow,
    lob::undo_vers_t *lob_undo // 如果需要应用 blob 的 undo log
  ) {
  const rec_t *version;
  rec_t *prev_version;
  trx_id_t trx_id;
  mem_heap_t *heap = nullptr;
  byte *buf;
  dberr_t err;

  trx_id = row_get_rec_trx_id(rec, index, *offsets);

  if (lob_undo != nullptr) { lob_undo->reset(); }

  version = rec;

  for (;;) {
    mem_heap_t *prev_heap = heap;
    heap = mem_heap_create(1024, UT_LOCATION_HERE);

    if (vrow) { *vrow = nullptr; }

    bool purge_sees = trx_undo_prev_version_build(rec, mtr, version, index, *offsets, heap,
                                                  &prev_version, nullptr, vrow, 0, lob_undo);

    err = (purge_sees) ? DB_SUCCESS : DB_MISSING_HISTORY; // purge view(也是最老的 readview)可见,因此 undo 可能被 purge

    if (prev_heap != nullptr) { mem_heap_free(prev_heap); }

    if (prev_version == nullptr) {
      /* 不存在更老的对应主键版本 */
      *old_vers = nullptr;
      break;
    }

    *offsets = rec_get_offsets(prev_version, index, *offsets, ULINT_UNDEFINED,
                               UT_LOCATION_HERE, offset_heap);

    trx_id = row_get_rec_trx_id(prev_version, index, *offsets);

    if (view->changes_visible(trx_id, index->table->name)) {
      /* 一直找到第一个 view 可见的目标历史行记录后 copy 并退出 */
      buf = static_cast<byte *>(mem_heap_alloc(in_heap, rec_offs_size(*offsets)));

      *old_vers = rec_copy(buf, prev_version, *offsets);

      if (vrow && *vrow) {
        *vrow = dtuple_copy(*vrow, in_heap);
        dtuple_dup_v_fld(*vrow, in_heap);
      }
      break;
    }

    version = prev_version;
  }

  mem_heap_free(heap);
  return err;
}
  1. Purge/Undo 路径

当需要从二级索引 purge 标记删除的行时,会检查是否存在一个未被标记删除的、大于等于 purge view 范围的、且与 purge 目标二级索引记录字符集排序相等的主键行记录版本,如果存在(当前二级索引还会使用),则不会 purge 这个二级索引记录。

  1
  2
  3
  4
  5
  6
  7
  8
  9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
 24
 25
 26
 27
 28
 29
 30
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 43
 44
 45
 46
 47
 48
 49
 50
 51
 52
 53
 54
 55
 56
 57
 58
 59
 60
 61
 62
 63
 64
 65
 66
 67
 68
 69
 70
 71
 72
 73
 74
 75
 76
 77
 78
 79
 80
 81
 82
 83
 84
 85
 86
 87
 88
 89
 90
 91
 92
 93
 94
 95
 96
 97
 98
 99
100
101
102
103
104
105
106
/** 检查是否存在某个大于等于 purge view 的非标记删除行记录版本(不可清理)和目标二级索引一致 */
bool row_vers_old_has_index_entry(
    bool also_curr,         /*!< in: true if also rec is included in the
                           versions to search; otherwise only versions
                           prior to it are searched */
    const rec_t *rec,       /*!< in: record in the clustered index; the
                            caller must have a latch on the page */
    mtr_t *mtr,             /*!< in: mtr holding the latch on rec; it will
                            also hold the latch on purge_view */
    dict_index_t *index,    /*!< in: the secondary index */
    const dtuple_t *ientry, /*!< in: the secondary index entry */
    roll_ptr_t roll_ptr,    /*!< in: roll_ptr for the purge record */
    trx_id_t trx_id)        /*!< in: transaction ID on the purging record */
{
  const rec_t *version;
  rec_t *prev_version;
  dict_index_t *clust_index;
  ulint *clust_offsets;
  mem_heap_t *heap;
  mem_heap_t *heap2;
  dtuple_t *row;
  const dtuple_t *entry;
  ulint comp;
  const dtuple_t *vrow = nullptr;
  mem_heap_t *v_heap = nullptr;
  const dtuple_t *cur_vrow = nullptr;

  clust_index = index->table->first_index();

  comp = page_rec_is_comp(rec);
  heap = mem_heap_create(1024, UT_LOCATION_HERE);
  clust_offsets = rec_get_offsets(rec, clust_index, nullptr, ULINT_UNDEFINED,
                                  UT_LOCATION_HERE, &heap);

  if (dict_index_has_virtual(index)) v_heap = mem_heap_create(100, UT_LOCATION_HERE);

  // also_curr == true,检查非 delete_mark 的当前 rec 是否和二级索引匹配
  if (also_curr && !rec_get_deleted_flag(rec, comp)) {
    row_ext_t *ext;
    row = row_build(ROW_COPY_POINTERS, clust_index, rec, clust_offsets, nullptr,
                    nullptr, nullptr, &ext, heap);

    if (dict_index_has_virtual(index)) {
      // 存在 virtual row 处理 ...
    } else {
      // 构建二级索引对应 dtuple_t *entry
      entry = row_build_index_entry(row, ext, index, heap);
      // 字符集(非binary)比较输入目标 ientry 和主键二级索引部分是否一致
      if (entry && dtuple_coll_eq(entry, ientry)) {
        mem_heap_free(heap);
        if (v_heap) { mem_heap_free(v_heap); }
        return true;
      }
    }
  } else if (dict_index_has_virtual(index)) {
    // 存在 virtual row 处理 ...
  }

  version = rec;

  // 检查是否存在非 delete_mark 的老版本 rec 和二级索引匹配
  for (;;) {
    heap2 = heap;
    heap = mem_heap_create(1024, UT_LOCATION_HERE);
    vrow = nullptr;

    // 构建前一个版本行记录
    trx_undo_prev_version_build(
          rec, mtr, version, clust_index, clust_offsets, heap, &prev_version,
          nullptr, dict_index_has_virtual(index) ? &vrow : nullptr, 0, nullptr);
    mem_heap_free(heap2);

    if (!prev_version) {
      /* 不存在更老的(purge 安全)版本 */
      mem_heap_free(heap);
      if (v_heap) mem_heap_free(v_heap);
      return false;
    }

    clust_offsets = rec_get_offsets(prev_version, clust_index, nullptr,
                                    ULINT_UNDEFINED, UT_LOCATION_HERE, &heap);

    if (dict_index_has_virtual(index)) { /* 存在 virtual row 处理 ... */ }

    if (!rec_get_deleted_flag(prev_version, comp)) {
      row_ext_t *ext;
      row = row_build(ROW_COPY_POINTERS, clust_index, prev_version,
                      clust_offsets, nullptr, nullptr, nullptr, &ext, heap);

      if (dict_index_has_virtual(index)) {/* 存在 virtual row 处理 ... */}
      // 构建二级索引对应 dtuple_t *entry
      entry = row_build_index_entry(row, ext, index, heap);
      /* If entry == NULL, the record contains unset BLOB pointers.
        This cheated be a freshly inserted record that can ignore. */

      // 字符集(非binary)比较输入目标 ientry 和主键二级索引部分是否一致
      if (entry && dtuple_coll_eq(entry, ientry)) {
        mem_heap_free(heap);
        if (v_heap) { mem_heap_free(v_heap); }
        return true;
      }
    }

    version = prev_version;
  }
}
  1. 二级索引隐式锁判断

在做二级索引记录可见下判断时,当无法使用二级索引 page max tid 做过滤时,需要回表主键去检查是否是当前存在的活跃事务插入或修改了对应的二级索引记录。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
/* 查找是否存在当前 tid 产生的、关联 sec rec 的主键记录版本。 */
static bool row_vers_find_matching(
    bool looking_for_match,
    const dict_index_t *const clust_index,
    const rec_t *const clust_rec, ulint *&clust_offsets,
    const dict_index_t *const sec_index, const rec_t *const sec_rec,
    const ulint *const sec_offsets, const bool comp,
    const trx_id_t trx_id, // 当前 cluster rec 对应的 tid,必然是活跃的
    mtr_t *const mtr, mem_heap_t *&heap) {
  const rec_t *version = clust_rec;
  trx_id_t version_trx_id = trx_id;
  // 这里是回表到的当前索引上 cluster_rec 对应 tid 还活跃,但是 sec_rec 可能和不是这个 tid 产生的,仍要进一步判断
  // 只需要寻找当前索引 cluster_rec 对应 tid 产生的记录,如果是更老的 tid 产生的这个 sec_rec,由于这个行记录可以被后续 tid 修改,其一定已经不活跃了
  while (version_trx_id == trx_id) {
    mem_heap_t *old_heap = heap;
    const dtuple_t *clust_vrow = nullptr;
    rec_t *prev_version = nullptr;
    heap = mem_heap_create(1024, UT_LOCATION_HERE);
    // 寻找前一个主键记录版本
    trx_undo_prev_version_build(
        clust_rec, mtr, version, clust_index, clust_offsets, heap, &prev_version,
        nullptr, dict_index_has_virtual(sec_index) ? &clust_vrow : nullptr, 0, nullptr);

    mem_heap_free(old_heap);

    version = prev_version;

    if (version == nullptr) {
      version_trx_id = 0;
    } else {
      clust_offsets = rec_get_offsets(version, clust_index, nullptr,
                                      ULINT_UNDEFINED, UT_LOCATION_HERE, &heap);
      version_trx_id = row_get_rec_trx_id(version, clust_index, clust_offsets);
    }

    /* NOTE: 这里需要判断是否由对应版本主键 prev version 到这个版本这次 “修改” 而产生的 sec_rec:

      sec_rec 是 non-delete marked(looking_for_match = false):
        如果发现 prev version 是 delete mark 的或 version 二级索引部分与 sec_rec 不一致(不 match),
        说明是由这个版本 version 修改产生的这个 sec_rec(老版本被更新过),
        因此仍活跃。
      (sec_rec 活跃,prev version 非活跃 或 不一致 时,则说明对 prev version 的修改导致此 sec_rec 产生)


      sec_rec 是 delete marked(looking_for_match = true):
        如果发现 prev version 是 非 delete mark 且 version 二级索引部分与 sec_rec 一致(match),
        说明是由这个版本 version 修改产生的这个 sec_rec(老版本被更新过),
        因此仍活跃。,
       (sec_rec 非活跃,prev version 活跃 且 一致 时,则说明对 prev version 的修改导致此 sec_rec 产生)
    */
    if (row_clust_vers_matches_sec(
            clust_index, version, clust_vrow, clust_offsets, sec_index, sec_rec,
            sec_offsets, comp, looking_for_match, heap) == looking_for_match) {
      return true;
    }
  }

  return false;
}

  • 版权声明:如需转载或引用,请附加本文链接并注明来源。