mysql性能瓶颈-高CPU定位

王大爷 2022年05月06日 607次浏览

在性能压测过程中,导致数据库CPU很高的原因有很多种,一般和慢SQL也有关(因为每条SQL要么占CPU高,要么占IO高,大体是这样),那么如何分析到是某些SQL引起的呢?

分析时机:运行性能测试,监测到CPU比较高时,实时分析;

1、SQL引起的高CPU

**先抛出结论:**如果数据分布不合理,会导致sql语句执行时间长,尤其在基础数据量大,该sql语句执行次数多时更为明显;这样会导致SQL语句执行占用CPU高;

分析过程:

1)首先定位占用CPU高的线程(目的:明确占用CPU高的均为mysql线程?)

通过top命令发现mysql占用CPU高

再看mysql进程下有多少线程占用CPU高:top -p [pid] H

2)在mysql中使用 SHOW FULL PROCESSLIST; 查询,找到对CPU影响较大的语句(最后附上show full processlist详解)

当CPU较高时,执行show full processlist,查看到实时执行的SQL语句以及各种信息(最重要的为state列,查看sql语句当前状态);

可以看到有不少是Sending data状态的,我们挑选其中最复杂的一条语句来分析:(为啥挑Sending data状态的最复杂语句,不理解)

此条语句使用了联合查询,可以根据情况对此语句进行分析或对联合查询的单条语句进行分析;

3)语句分析

分析的方式同 慢SQL分析(手动查询、Explain分析、show profile分析),细节可参见另一篇文章:https://blog.csdn.net/xiaona0523/article/details/107981984

以下为大体分析过程:

a)show profile分析:

由于语句为联合查询,因此可看到有2条sending data,占用时间和花费时间都很高;

可以拆分继续分析,如下述语句:

SELECT r.id,c.check_action_name,check_date,check_end_date,c.id AS check_content_id,c.check_object_name AS checkObjectName,c.update_time,c.verify            FROM administrative_check_content c            LEFT JOIN administrative_check_report r ON c.report_id=r.id            LEFT JOIN administrative_check_report_enforcers e ON r.id=e.report_id            WHERE e.enforcer_id= 'ec66d95c8c6d437b9e3a460f93f1a592'

b)手动查询

执行上述拆分出来的单条语句,查询时间约为0.8s多,耗时较长

c)Explain分析

执行 EXPLAIN 分析,看到通过索引查询到的内容多达30084行,如下所示:

一般像这样的系统进行压测,多半是数据分布不合理,测试数据没有反应真实的业务场景,明显数据分布不均衡,一个ID号就关联三万条数据,使用索引的效率都没能体现出来。

**总结:**通过SHOW PROCESSLIST我们可以知道Mysql当前的线程状态,以及主要资源消耗在哪方面;再结合show profile分析具体占用CPU高的SQL,可以进一步定位出SQL引起高CPU的原因,到这一步无疑就能指导开发人员的优化方向了。

2、其他原因引起的高CPU

1)show processlist

通过SHOW PROCESSLIST查询mysql线程状态,我们需要重点了解State列不同状态所代表的含义(state含义见文章最后附注)

注:show processlist只列出前100条,而show full processlist会列出全部;

下图为show processlist查询结果示例:

大部分状态(state列)对应操作很快,只要有一个线程保持同一个状态好几秒钟,那么可能有问题发生,需要检查一下;

2)show status

通过show status查询当前mysql的运行状态(附注记录了详细解释)

如果在日常运维过程做过记录,那么当系统出现性能异常时,即可做状态值对比,偏离过大的就是需要关注的点;可将这些参数值加入到运维监控系统,作为关注指标;

3)kill id

可以尝试kill id(id在SHOW PROCESSLIST中显示 ),关掉疑似占CPU高的线程,以确认是否能让CPU降下来。

对于mysql来说,慢SQL及死锁以外的CPU问题确实不好定位,要求对数据库系统及性能非常了解,而对于我们做性能测试的,能做的就是逐层分析,缩小问题范围,实在不行,只能用kill id的方式来试错排查。

附注:

1)show full processlist详解,转载自https://www.cnblogs.com/tongcharge/p/11495393.html

当cpu百分比居高不下时,可使用show processlist分析;

show processlist只列出前100条,show full processlist 可全部列出;

各列的含义和用途:

id列,不用说了吧,一个标识,你要kill一个语句的时候很有用。user列,显示单前用户,如果不是root,这 个命令就只显示你权限范围内的sql语句。host列,显示这个语句是从哪个ip的哪个端口上发出的。呵呵,可以用来追踪出问题语句的用户。db列,显示 这个进程目前连接的是哪个数据库。command列,显示当前连接的执行的命令,一般就是休眠(sleep),查询(query),连接 (connect)。time列,此这个状态持续的时间,单位是秒。state列,显示使用当前连接的sql语句的状态,很重要的列,后续会有所有的状态 的描述,请注意,state只是语句执行中的某一个状态,一个sql语句,已查询为例,可能需要经过copying to tmp table,Sorting result,Sending data等状态才可以完成,info列,显示这个sql语句,因为长度有限,所以长的sql语句就显示不全,但是一个判断问题语句的重要依据。

其中state列最关键,mysql列出的state主要有以下几种:

注:下图中未列出全部状态,如有些状态为查看服务器是否存在错误,未列出

Checking table 正在检查数据表(这是自动的)。Closing tables 正在将表中修改的数据刷新到磁盘中,同时正在关闭已经用完的表。这是一个很快的操作,如果不是这样的话,就应该确认磁盘空间是否已经满了或者磁盘是否正处于重负中。Connect Out 复制从服务器正在连接主服务器。Copying to tmp table on disk 由于临时结果集大于tmp_table_size,正在将临时表从内存存储转为磁盘存储以此节省内存(如果临时表过大会导致mysql将临时表写入硬盘的时间过长,会影响整体性能)。Creating tmp table 正在创建临时表以存放部分查询结果。deleting from main table 服务器正在执行多表删除中的第一部分,刚删除第一个表。deleting from reference tables 服务器正在执行多表删除中的第二部分,正在删除其他表的记录。Flushing tables 正在执行FLUSH TABLES,等待其他线程关闭数据表。Killed 发送了一个kill请求给某线程,那么这个线程将会检查kill标志位,同时会放弃下一个kill请求。MySQL会在每次的主循环中检查 kill标志位,不过有些情况下该线程可能会过一小段才能死掉。如果该线程程被其他线程锁住了,那么kill请求会在锁释放时马上生效。Locked 被其他查询锁住了。Sending data 正在处理SELECT查询的记录,同时正在把结果发送给客户端。Sorting for group 正在为GROUP BY做排序。 Sorting for order 正在为ORDER BY做排序。Opening tables 这个过程应该会很快,除非受到其他因素的干扰。例如,在执ALTER TABLE或LOCK TABLE语句行完以前,数据表无法被其他线程打开。正尝试打开一个表。Removing duplicates 正在执行一个SELECT DISTINCT方式的查询,但是MySQL无法在前一个阶段优化掉那些重复的记录。因此,MySQL需要再次去掉重复的记录,然后再把结果发送给客户端。Reopen table 获得了对一个表的锁,但是必须在表结构修改之后才能获得这个锁。已经释放锁,关闭数据表,正尝试重新打开数据表。Repair by sorting 修复指令正在排序以创建索引。Repair with keycache 修复指令正在利用索引缓存一个一个地创建新索引。它会比Repair by sorting慢些。Searching rows for update 正在讲符合条件的记录找出来以备更新。它必须在UPDATE要修改相关的记录之前就完成了。Sleeping 正在等待客户端发送新请求.(Sleeping过多也是问题,比如wait_timeout设置过大,导致MySQL里大量的SLEEP进程无法及时释放,拖累系统性能,不过也不能把它设置的过小,否则你可能会遭遇到“MySQL has gone away”之类的问题)。System lock 正在等待取得一个外部的系统锁。如果当前没有运行多个mysqld服务器同时请求同一个表,那么可以通过增加--skip-external-locking参数来禁止外部系统锁。Upgrading lock INSERT DELAYED正在尝试取得一个锁表以插入新记录。Updating 正在搜索匹配的记录,并且修改它们。User Lock 正在等待GET_LOCK()。Waiting for tables 该线程得到通知,数据表结构已经被修改了,需要重新打开数据表以取得新的结构。然后,为了能的重新打开数据表,必须等到所有其他线程关闭这个 表。以下几种情况下会产生这个通知:FLUSH TABLES tbl_name, ALTER TABLE, RENAME TABLE, REPAIR TABLE, ANALYZE TABLE,或OPTIMIZE TABLE。waiting for handler insert INSERT DELAYED已经处理完了所有待处理的插入操作,正在等待新的请求。

2)show status查询结果,状态值及含义

Aborted_clients 由于客户没有正确关闭连接已经死掉,已经放弃的连接数量。Aborted_connects 尝试已经失败的MySQL服务器的连接的次数。Connections 试图连接MySQL服务器的次数。Created_tmp_tables 当执行语句时,已经被创造了的隐含临时表的数量。Delayed_insert_threads 正在使用的延迟插入处理器线程的数量。Delayed_writes 用INSERT DELAYED写入的行数。Delayed_errors 用INSERT DELAYED写入的发生某些错误(可能重复键值)的行数。Flush_commands 执行FLUSH命令的次数。Handler_delete 请求从一张表中删除行的次数。Handler_read_first 请求读入表中第一行的次数。Handler_read_key 请求数字基于键读行。Handler_read_next 请求读入基于一个键的一行的次数。Handler_read_rnd 请求读入基于一个固定位置的一行的次数。Handler_update 请求更新表中一行的次数。Handler_write 请求向表中插入一行的次数。Key_blocks_used 用于关键字缓存的块的数量。Key_read_requests 请求从缓存读入一个键值的次数。Key_reads 从磁盘物理读入一个键值的次数。Key_write_requests 请求将一个关键字块写入缓存次数。Key_writes 将一个键值块物理写入磁盘的次数。Max_used_connections 服务器启动后同时使用的连接的最大数目。Not_flushed_key_blocks 在键缓存中已经改变但是还没被清空到磁盘上的键块。Not_flushed_delayed_rows 在INSERT DELAY队列中等待写入的行的数量。Open_tables 当前打开表的数量。Open_files 打开文件的数量。Open_streams 打开流的数量(主要用于日志记载)Opened_tables 已经打开的表的数量。Questions 发往服务器的查询的数量。Slow_queries 要花超过long_query_time时间的查询数量。Threads_connected 当前打开的连接的数量。Threads_running 不在睡眠(激活)的线程数量。Uptime 服务器工作了多少秒。Uptime_since_flush_status 最近一次使用FLUSH STATUS 的时间(以秒为单位)

补充

查看具体查是哪个线程占用CPU最高

### 在Linux中使用top命令找到mysql进程ID
top - 22:11:02 up 279 days,  3:05,  0 users,  load average: 5.01, 6.78, 6.42
Tasks:   3 total,   1 running,   2 sleeping,   0 stopped,   0 zombie
%Cpu(s): 76.4 us,  6.8 sy,  0.0 ni, 13.3 id,  1.5 wa,  0.0 hi,  2.0 si,  0.0 st
MiB Mem :   7821.6 total,    133.8 free,   3278.6 used,   4409.2 buff/cache
MiB Swap:   2048.0 total,    393.7 free,   1654.3 used.   4243.3 avail Mem 

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU  %MEM     TIME+ COMMAND                                                                                                   
    1 mysql     20   0 5850828   2.8g   9560 S 676.7  36.9 218111:07 mysqld                                                                                                    
29839 root      20   0    5740   2044   1580 S   0.0   0.0   0:00.01 bash                                                                                                      
29845 root      20   0    9816   1848   1388 R   0.0   0.0   0:00.00 top         
# 指定进程ID,找到占用CPU最高的线程ID
top -H -p 1
top - 22:11:36 up 279 days,  3:05,  0 users,  load average: 5.41, 6.70, 6.41
Threads: 1102 total,   4 running, 1098 sleeping,   0 stopped,   0 zombie
%Cpu(s): 39.3 us,  2.3 sy,  0.0 ni, 56.2 id,  1.7 wa,  0.0 hi,  0.4 si,  0.0 st
MiB Mem :   7821.6 total,    126.3 free,   3272.0 used,   4423.3 buff/cache
MiB Swap:   2048.0 total,    392.4 free,   1655.6 used.   4250.5 avail Mem 

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU  %MEM     TIME+ COMMAND                                                                                                   
17943 mysql     20   0 5847756   2.8g   9560 R  81.5  36.8  12:02.04 mysqld                                                                                                    
10532 mysql     20   0 5847756   2.8g   9560 R  58.7  36.8   9:18.74 mysqld                                                                                                    
31587 mysql     20   0 5847756   2.8g   9560 S  30.7  36.8  52:08.27 mysqld                                                                                                    
14865 mysql     20   0 5847756   2.8g   9560 R  27.7  36.8  37:45.00 mysqld                                                                                                    
22558 mysql     20   0 5847756   2.8g   9560 S  21.1  36.8  22:24.18 mysqld                                                                                                    
 6064 mysql     20   0 5847756   2.8g   9560 S  16.8  36.8   4:01.18 mysqld

根据操作系统线程ID找到对应的mysql 线程ID

SELECT
    * 
FROM
    `performance_schema`.threads T 
WHERE
    T.THREAD_OS_ID = 17943

根据返回结果中的PROCESLIST_INFO等信息,来判断其执行的语句是否可以进行优化

SELECT * FROM `performance_schema`.`processlist` WHERE `processlist`.ID IN
(SELECT
    T.PROCESSLIST_ID
FROM
    `performance_schema`.threads T 
WHERE
    T.THREAD_OS_ID = 7013)

注意:docker运行的mysql要在容器内找到线程ID

### 如果容易内没有top命令,如果昌官方基于 debian的mysql镜像,使用如下命令安装top命令
apt-get update
apt-get install procps
### 必须执行apt-get update,否则可能会报E: Unable to locate package procps的错

补充

如果觉得先从分析线程入手比较麻烦,也可以直接通过查询当前正在执行的查询入手

SELECT * FROM `performance_schema`.`processlist` 
WHERE COMMAND != 'SLEEP' AND TIME > 1 ORDER BY TIME DESC

直接找出当前下大执行的查询,按执行时间倒充值,占用CPU高的查询往往耗时也比较长