复制状态与变量记录表 | performance_schema全方位介绍奥门永利误乐域:(六)

原标题:复制状态与变量记录表 | performance_schema全方位介绍(六)

Coordinator stopped because there were error(s) in the worker(s). The
most recent failure being: Worker 2 failed executing transaction
‘ANONYMOUS’ at master log mysql-bin.005656, end_log_pos 4529152. See
error log and/or
performance_schema.replication_applier_status_by_worker table for
more details about this failure or others, if any.

奥门永利误乐域 1

在从库中查看表performance_schema.replication_applier_status_by_worker
select * from
performance_schema.replication_applier_status_by_worker\G

出品 沃趣科技

*************************** 2. row
***************************
CHANNEL_NAME:
WORKER_ID: 2
THREAD_ID: NULL
SERVICE_STATE: OFF
LAST_SEEN_TRANSACTION: ANONYMOUS
LAST_ERROR_NUMBER: 1168
LAST_ERROR_MESSAGE: Worker 2 failed executing transaction ‘ANONYMOUS’
at master log mysql-bin.005656, end_log_pos 4529152; Error executing
row event: ‘Uerlying table which is differently defined or of non-MyISAM
type or doesn’t exist’
LAST_ERROR_TIMESTAMP: 2017-12-01 08:57:55

IT从业多年,历任运维工程师,高级运维工程师,运维经理,数据库工程师,曾参与版本发布系统,轻量级监控系统,运维管理平台,数据库管理平台的设计与编写,熟悉MySQL的体系结构时,InnoDB存储引擎,喜好专研开源技术,追求完美。

去主库查找binlog日志,看看发生了什么事情(日志定位方式有点挫)
mysqlbinlog –start-position=4529152 –stop-position=4539152
mysql-bin.005656 | more
这条命令是从4529152位置开始,但是我们出错的位置(end_log_pos)是这个位置结束,所以刚好错过,再往前一点就好
了。
通过这条命令看到日志时间是2017-12-01 01:47:41,所以我用了另外一条命令
mysqlbinlog –start-datetime=2017-12-01 01:47:41
–stop-datetime=2017-12-01 01:47:50 mysql-bin.005656 | more
找到日志:

不知不觉中,performance_schema系列快要接近尾声了,今天将带领大家一起踏上系列第六篇的征程(全系共6个篇章),在这一期里,我们将为大家全面讲解performance_schema中的复制状态与变量统计表。下面,请跟随我们一起开始performance_schema系统的学习之旅吧~

奥门永利误乐域 2

01

image.png

复制信息统计表

查看这个ID为332的这张表,发现这张表是自动创建的,创建的时候没有指定存储引擎,所以主从都出错了

通常,DBA或相关数据库运维人员在查看从库的复制相关的信息,都习惯性的使用show
slave
status语句查看。也许你会说,我也会用performance_schema下的表查看一些复制报错信息什么的。但是,你知道show
slave
status语句、mysql系统库下的复制信息记录表、performance_schema系统库下的复制信息记录表之间有什么区别吗?不知道?别急,本文即将为你详细介绍show
slave
status语句与performance_schema系统库下的复制信息记录表的区别(mysql系统库下的复制表区别详见后续
“mysql系统库全方位介绍”系列)。

在开始详细介绍每一张复制信息表之前,我们先花费一些篇幅来整体认识一下这些表。

performance_schema
系统库下提供了如下几个与复制状态相关的表(表含义详见本文后续小节):

  • replication_applier_configuration
  • replication_applier_status
  • replication_applier_status_by_coordinator
  • replication_applier_status_by_worker
  • replication_connection_configuration
  • replication_connection_status
  • replication_group_member_stats
  • replication_group_members

这些复制表中记录的信息生命周期如下(生命周期即指的是这些表中的信息什么时候写入,什么时候会被修改,什么时候会被清理等):

  • 在执行CHANGE MASTER TO之前,这些表是空的
  • 执行CHANGE MASTER
    TO之后,在配置参数表replication_applier_configuration和replication_connection_configuration中可以查看到配置信息了。此时,由于并没有启动复制,所以表中THREAD_ID列为NULL,SERVICE_STATE列的值为OFF(这两个字段存在与表replication_applier_status、replication_applier_status_by_coordinator、replication_applier_status_by_worker、replication_connection_status几个表中)
  • 执行START
    SLAVE后,可以看到连接线程和协调器线程,工作线程状态表中的THREAD_ID字段被分配了一个值,且SERVICE_STATE字段被修改为ON了,THREAD_ID字段值与show
    processlist语句中看到的线程id相同。 *
    如果IO线程空闲或正在从主库接收binlog时,线程的SERVICE_STATE值会一直为ON,THREAD_ID线程记录线程ID值,如果IO线程正在尝试连接主库但还没有成功建立连接时,THREAD_ID记录CONNECTING值,THREAD_ID字段记录线程ID,如果IO线程与主库的连接断开,或者主动停止IO线程,则SERVICE_STATE字段记录为OFF,THREAD_ID字段被修改为NULL
  • 执行 STOP
    SLAVE之后,所有复制IO线程、协调器线程、工作线程状态表中的THREAD_ID列变为NULL,SERVICE_STATE列的值变为OFF。注意:停止复制相关线程之后,这些记录并不会被清理
    ,因为复制意外终止或者临时需要会执行停止操作,可能需要获取一些状态信息用于排错或者其他用途。
  • 执行RESET
    SLAVE之后,所有记录复制配置和复制状态的表中记录的信息都会被清除。但是show
    slave
    status语句还是能查看到一些复制状态和配置信息,因为该语句是从内存中获取,RESET
    SLAVE语句并没有清理内存,而是清理了磁盘文件、表(还包括mysql.slave_master_info和mysql.slave_relay_log_info两个表)中记录的信息。如果需要清理内存里报错的复制信息,需要使用RESET
    SLAVE ALL;语句
  • 注意:对于replication_applier_status_by_worker、replication_applier_status_by_coordinator表(以及mysql.slave_wroker_info表)来说,如果是以单线程复制运行,则replication_applier_status_by_worker表记录一条WORKER_ID=0的记录,replication_applier_status_by_coordinator表与mysql.slave_wroker_info表为空(使用多线程复制,该表中才有记录)。即,如果slave_parallel_workers系统变量大于0,则在执行START
    SLAVE时这些表就被填充相应多线程工作线程的信息

performance_schema
系统库中保存的复制信息与SHOW SLAVE
STATUS输出的信息有所不同(performance_schema 中记录的一些复制信息是show
slave status语句输出信息中没有的,但是也仍然有一些show slave
status语句输出的复制信息是performance_schema
中没有的),因为这些表面向全局事务标识符(GTID)使用,而不是基于binlog
pos位置,所以这些表记录server UUID值,而不是server ID值。show slave
status语句输出的信息在performance_schema 中缺少的内容如下:

用于引用binlog file、pos和relay log
file、pos等信息选项,在performance_schema表中不记录 。

PS1:如下系统状态变量被移动到了这些复制状态表中进行记录(MySQL
5.7.5版之前使用以下状态变量查看):

  • Slave_retried_transactions
  • Slave_last_heartbeat
  • Slave_received_heartbeats
  • Slave_heartbeat_period
  • Slave_running

PS2:对于组复制架构,组复制的监控信息散布在如下几张表中

  • replication_group_member_stats
  • replication_group_members
  • replication_applier_status
  • replication_connection_status
  • threads

通过以上内容,我们从整体上能够大致了解了performance_schema中的复制信息表记录了什么信息,下面依次详细介绍这些复制信息表。

1.replication_applier_configuration表

该表中记录从库线程延迟复制的配置参数(延迟复制的线程被称为普通线程,比如CHANNEL_NAME和DESIRED_DELAY字段记录某个复制通道是否需要执行延迟复制,如果是MGR集群,则记录组复制从节点的延迟复制配置参数),该表中的记录在Server运行时可以使用CHANGE
MASTER
TO语句进行更改,我们先来看看表中记录的统计信息是什么样子的。

# 如果是单主或多主复制,则该表中会为每个复制通道记录一条类似如下信息

admin@localhost : performance_schema 02:49:12> select * from
replication_applier_configuration;

+————–+—————+

| CHANNEL_NAME |DESIRED_DELAY |

+————–+—————+

|| 0 |

+————–+—————+

1row inset ( 0. 00sec)

# 如果是MGR集群,则该表中会记录类似如下MGR集群信息

root@localhost : performance_schema 10:56:49> select * from
replication_applier_configuration;

+—————————-+—————+

| CHANNEL_NAME |DESIRED_DELAY |

+—————————-+—————+

|group_replication_applier | 0 |

| group_replication_recovery |0|

+—————————-+—————+

2 rows inset (0.00 sec)

表中各字段含义及与show slave
status输出字段对应关系如下:

奥门永利误乐域 3

对于replication_applier_configuration表,不允许执行TRUNCATE
TABLE语句。

2. replication_applier_status表

该表中记录的是从库当前的一般事务执行状态(该表也记录组复制架构中的复制状态信息)

  • 此表提供了所有线程binlog重放事务时的普通状态信息。线程重放事务时特定的状态信息保存在replication_applier_status_by_coordinator表(单线程复制时该表为空)和replication_applier_status_by_worker表(单线程复制时表中记录的信息与多线程复制时的replication_applier_status_by_coordinator表中的记录类似)

我们先来看看表中记录的统计信息是什么样子的。

#
单线程复制和多线程复制时表中的记录相同,如果是多主复制,则每个复制通道记录一行信息

admin@localhost : performance_schema 02:49:28> select * from
replication_applier_status;

+————–+—————+—————–+—————————-+

| CHANNEL_NAME |SERVICE_STATE | REMAINING_DELAY
|COUNT_TRANSACTIONS_RETRIES |

+————–+—————+—————–+—————————-+

|| ON |NULL | 0 |

+————–+—————+—————–+—————————-+

1row inset ( 0. 00sec)

# 如果是MGR集群,则该表会记录如下MGR集群信息

root@localhost : performance_schema 10:58:33> select * from
replication_applier_status;

+—————————-+—————+—————–+—————————-+

| CHANNEL_NAME |SERVICE_STATE | REMAINING_DELAY
|COUNT_TRANSACTIONS_RETRIES |

+—————————-+—————+—————–+—————————-+

|group_replication_applier | ON |NULL | 0 |

| group_replication_recovery |OFF | NULL |0|

+—————————-+—————+—————–+—————————-+

2 rows inset (0.00 sec)

表中各字段含义及与show slave
status输出字段对应关系如下:

奥门永利误乐域 4

对于replication_applier_status表,不允许执行TRUNCATE
TABLE语句。

3. replication_applier_status_by_coordinator表

该表中记录的是从库使用多线程复制时,从库的协调器工作状态记录,当从库使用多线程复制时,每个通道下将创建一个协调器和多个工作线程,使用协调器线程来管理这些工作线程。如果从库使用单线程,则此表为空(对应的记录转移到replication_applier_status_by_worker表中记录),我们先来看看表中记录的统计信息是什么样子的。

#
单线程主从复制时,该表为空,为多线程主从复制时表中记录协调者线程状态信息,多主复制时每个复制通过记录一行信息

admin@localhost : performance_schema 02:49:50> select * from
replication_applier_status_by_coordinator;

+————–+———–+—————+——————-+——————–+———————-+

| CHANNEL_NAME |THREAD_ID | SERVICE_STATE |LAST_ERROR_NUMBER |
LAST_ERROR_MESSAGE |LAST_ERROR_TIMESTAMP |

+————–+———–+—————+——————-+——————–+———————-+

|| 43 |ON | 0 || 0000-00-00 00:00:00 |

+————–+———–+—————+——————-+——————–+———————-+

1row inset ( 0. 00sec)

# 如果是MGR集群,则该表中会记录类似如下MGR集群信息

root@localhost : performance_schema 11:00:11> select * from
replication_applier_status_by_coordinator;

+—————————+———–+—————+——————-+——————–+———————-+

| CHANNEL_NAME |THREAD_ID | SERVICE_STATE |LAST_ERROR_NUMBER |
LAST_ERROR_MESSAGE |LAST_ERROR_TIMESTAMP |

+—————————+———–+—————+——————-+——————–+———————-+

|group_replication_applier | 91 |ON | 0 || 0000-00-00 00:00:00 |

+—————————+———–+—————+——————-+——————–+———————-+

1row inset ( 0. 00sec)

表中各字段含义及与show slave
status输出字段对应关系如下:

奥门永利误乐域 5

对于replication_applier_status_by_coordinator表,不允许执行TRUNCATE
TABLE语句。

4. replication_applier_status_by_worker表

如果从库是单线程,则该表记录一条WORKER_ID=0的SQL线程的状态。如果从库是多线程,则该表记录系统参数slave_parallel_workers指定个数的工作线程状态(WORKER_ID从1开始编号),此时协调器/SQL线程状态记录在replication_applier_status_by_coordinator表,每一个通道都有自己独立的工作线程和协调器线程(每个通道的工作线程个数由slave_parallel_workers参数变量指定,如果是MGR集群时,则该表中记录的工作线程记录为slave_parallel_workers个group_replication_applier线程+1个group_replication_recovery线程),我们先来看看表中记录的统计信息是什么样子的。

# 单线程主从复制时表中记录的内容如下

root@localhost : performance_schema 12:46:10> select * from
replication_applier_status_by_worker;

+————–+———–+———–+—————+———————–+——————-+——————–+———————-+

| CHANNEL_NAME |WORKER_ID | THREAD_ID |SERVICE_STATE |
LAST_SEEN_TRANSACTION |LAST_ERROR_NUMBER | LAST_ERROR_MESSAGE
|LAST_ERROR_TIMESTAMP |

+————–+———–+———–+—————+———————–+——————-+——————–+———————-+

|| 0 |82| ON || 0 || 0000-00-00 00:00:00 |

+————–+———–+———–+—————+———————–+——————-+——————–+———————-+

1row inset ( 0. 00sec)

#
多线程主从复制时表中的记录内容如下(如果是多主复制,则每个复制通道记录slave_parallel_workers参数指定个数的worker线程信息)

admin@localhost : performance_schema 02:50:18> select * from
replication_applier_status_by_worker;

+————–+———–+———–+—————+———————–+——————-+——————–+———————-+

| CHANNEL_NAME |WORKER_ID | THREAD_ID |SERVICE_STATE |
LAST_SEEN_TRANSACTION |LAST_ERROR_NUMBER | LAST_ERROR_MESSAGE
|LAST_ERROR_TIMESTAMP |

+————–+———–+———–+—————+———————–+——————-+——————–+———————-+

|| 1 |44| ON || 0 || 0000-00-00 00:00:00 |

| |2| 45 |ON | |0| |0000- 00- 0000:00:00|

|| 3 |46| ON || 0 || 0000-00-00 00:00:00 |

| |4| 47 |ON | |0| |0000- 00- 0000:00:00|

+————–+———–+———–+—————+———————–+——————-+——————–+———————-+

4 rows inset (0.00 sec)

# 如果是MGR集群,则该表中会记录类似如下MGR集群信息

root@localhost : performance_schema 11:00:16> select * from
replication_applier_status_by_worker;

+—————————-+———–+———–+—————+————————————————+——————-+——————–+———————-+

|CHANNEL_NAME | WORKER_ID |THREAD_ID | SERVICE_STATE
|LAST_SEEN_TRANSACTION | LAST_ERROR_NUMBER |LAST_ERROR_MESSAGE |
LAST_ERROR_TIMESTAMP |

+—————————-+———–+———–+—————+————————————————+——————-+——————–+———————-+

| group_replication_recovery |0| NULL |OFF | |0| |0000- 00-
0000:00:00|

|group_replication_applier | 1 |92| ON |aaaaaaaa-aaaa-aaaa-aaaa-
aaaaaaaaaaaa:104099082| 0 || 0000-00-00 00:00:00 |

| group_replication_applier |2| 93 |ON | |0| |0000- 00- 0000:00:00|

……

+—————————-+———–+———–+—————+————————————————+——————-+——————–+———————-+

17 rows inset (0.00 sec)

表中各字段含义及与show slave
status输出字段对应关系如下:

奥门永利误乐域 6

奥门永利误乐域 7

奥门永利误乐域 8

奥门永利误乐域 9

奥门永利误乐域 10

对于replication_applier_status_by_worker表,不允许执行TRUNCATE
TABLE语句。

5. replication_connection_configuration表

该表中记录从库用于连接到主库的配置参数,该表中存储的配置信息在执行change
master语句时会被修改

  • 与replication_connection_status表相比,replication_connection_configuration更改频率更低。因为它只包含从库连接到主库的配置参数,在连接正常工作期间这些配置信息保持不变的值,而replication_connection_status中包含的连接状态信息,只要IO线程状态发生变化,该表中的信息就会发生修改(多主复制架构中,从库指向了多少个主库就会记录多少行记录。MGR集群架构中,每个节点有两条记录,但这两条记录并未记录完整的组复制连接配置参数,例如:host等信息记录到了replication_group_members表中)。

我们先来看看表中记录的统计信息是什么样子的。

#
单线程、多线程主从复制时表中记录的内容相同,如果是多主复制,则每个复制通道各自有一行记录信息

admin@localhost : performance _schema 02:51:00> select * from
replication_connection_configurationG;

*************************** 1. row
***************************

CHANNEL_NAME:

HOST: 10.10.20.14

PORT: 3306

USER: qfsys

NETWORK_INTERFACE:

AUTO_POSITION: 1

SSL_ALLOWED: NO

SSL _CA_FILE:

SSL _CA_PATH:

SSL_CERTIFICATE:

SSL_CIPHER:

SSL_KEY:

SSL _VERIFY_SERVER_CERTIFICATE: NO

SSL _CRL_FILE:

SSL _CRL_PATH:

CONNECTION _RETRY_INTERVAL: 60

CONNECTION _RETRY_COUNT: 86400

HEARTBEAT_INTERVAL: 5.000

TLS_VERSION:

1 row in set (0.00 sec)

# 如果是MGR集群,则该表中会记录类似如下MGR集群信息

root@localhost : performance _schema 11:02:03> select * from
replication_connection_configurationG

*************************** 1. row
***************************

CHANNEL _NAME: group_replication_applier

HOST: <NULL>

……

*************************** 2. row
***************************

CHANNEL _NAME: group_replication_recovery

HOST: <NULL>

……

2 rows in set (0.00 sec)

表中各字段含义以及与change master
to语句的选项对应关系如下:

奥门永利误乐域 11

奥门永利误乐域 12

注意:对于replication_connection_configuration表,不允许执行TRUNCATE
TABLE语句。

6. replication_connection_status表

该表中记录的是从库IO线程的连接状态信息(也记录组复制架构中其他节点的连接信息,组复制架构中一个节点加入集群之前的数据需要使用异步复制通道进行数据同步,组复制的异步复制通道信息在show
slave
status中不可见),我们先来看看表中记录的统计信息是什么样子的。

#
多线程和单线程主从复制时表中记录相同,如果是多主复制,则每个复制通道在表中个记录一行信息

root@localhost : performance _schema 12:55:26> select * from
replication_connection_statusG

*************************** 1. row
***************************

CHANNEL_NAME:

GROUP_NAME:

SOURCE_UUID: ec123678-5e26-11e7-9d38-000c295e08a0

THREAD_ID: 101

SERVICE_STATE: ON

COUNT _RECEIVED_HEARTBEATS: 136

LAST _HEARTBEAT_TIMESTAMP: 2018-06-12 00:55:22

RECEIVED _TRANSACTION_SET:

LAST _ERROR_NUMBER: 0

LAST _ERROR_MESSAGE:

LAST _ERROR_TIMESTAMP: 0000-00-00 00:00:00

1 row in set (0.00 sec)

# 如果是MGR集群,则该表中会记录类似如下MGR集群信息

root@localhost : performance _schema 10:56:40> select * from
replication_connection_statusG

*************************** 1. row
***************************

CHANNEL _NAME: group_replication_applier

GROUP_NAME: aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaaa

SOURCE_UUID: aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaaa

THREAD_ID: NULL

SERVICE_STATE: ON

COUNT _RECEIVED_HEARTBEATS: 0

LAST _HEARTBEAT_TIMESTAMP: 0000-00-00 00:00:00

RECEIVED _TRANSACTION_SET:
aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaaa:104099082

LAST _ERROR_NUMBER: 0

LAST _ERROR_MESSAGE:

LAST _ERROR_TIMESTAMP: 0000-00-00 00:00:00

*************************** 2. row
***************************

CHANNEL _NAME: group_replication_recovery

发表评论

电子邮件地址不会被公开。 必填项已用*标注