在性能压测过程中,导致数据库CPU很高的原因有很多种,一般和慢SQL也有关(因为每条SQL要么占CPU高,要么占IO高,大体是这样),那么如何分析到是某些SQL引起的呢?
分析时机:运行性能测试,监测到CPU比较高时,实时分析;
1、SQL引起的高CPU
**先抛出结论:**如果数据分布不合理,会导致sql语句执行时间长,尤其在基础数据量大,该sql语句执行次数多时更为明显;这样会导致SQL语句执行占用CPU高;
分析过程:
1)首先定位占用CPU高的线程(目的:明确占用CPU高的均为mysql线程?)
通过top命令发现mysql占用CPU高
再看mysql进程下有多少线程占用CPU高:top -p [pid] H
2)在mysql中使用 SHOW FULL PROCESSLIST; 查询,找到对CPU影响较大的语句(最后附上show full processlist详解)
当CPU较高时,执行show full processlist,查看到实时执行的SQL语句以及各种信息(最重要的为state列,查看sql语句当前状态);
可以看到有不少是Sending data状态的,我们挑选其中最复杂的一条语句来分析:(为啥挑Sending data状态的最复杂语句,不理解)
此条语句使用了联合查询,可以根据情况对此语句进行分析或对联合查询的单条语句进行分析;
3)语句分析
分析的方式同 慢SQL分析(手动查询、Explain分析、show profile分析),细节可参见另一篇文章:https://blog.csdn.net/xiaona0523/article/details/107981984
以下为大体分析过程:
a)show profile分析:
由于语句为联合查询,因此可看到有2条sending data,占用时间和花费时间都很高;
可以拆分继续分析,如下述语句:
SELECT r.id,c.check_action_name,check_date,check_end_date,c.id AS check_content_id,c.check_object_name AS checkObjectName,c.update_time,c.verify FROM administrative_check_content c LEFT JOIN administrative_check_report r ON c.report_id=r.id LEFT JOIN administrative_check_report_enforcers e ON r.id=e.report_id WHERE e.enforcer_id= 'ec66d95c8c6d437b9e3a460f93f1a592'
b)手动查询
执行上述拆分出来的单条语句,查询时间约为0.8s多,耗时较长
c)Explain分析
执行 EXPLAIN 分析,看到通过索引查询到的内容多达30084行,如下所示:
一般像这样的系统进行压测,多半是数据分布不合理,测试数据没有反应真实的业务场景,明显数据分布不均衡,一个ID号就关联三万条数据,使用索引的效率都没能体现出来。
**总结:**通过SHOW PROCESSLIST我们可以知道Mysql当前的线程状态,以及主要资源消耗在哪方面;再结合show profile分析具体占用CPU高的SQL,可以进一步定位出SQL引起高CPU的原因,到这一步无疑就能指导开发人员的优化方向了。
2、其他原因引起的高CPU
1)show processlist
通过SHOW PROCESSLIST查询mysql线程状态,我们需要重点了解State列不同状态所代表的含义(state含义见文章最后附注)
注:show processlist只列出前100条,而show full processlist会列出全部;
下图为show processlist查询结果示例:
大部分状态(state列)对应操作很快,只要有一个线程保持同一个状态好几秒钟,那么可能有问题发生,需要检查一下;
2)show status
通过show status查询当前mysql的运行状态(附注记录了详细解释)
如果在日常运维过程做过记录,那么当系统出现性能异常时,即可做状态值对比,偏离过大的就是需要关注的点;可将这些参数值加入到运维监控系统,作为关注指标;
3)kill id
可以尝试kill id(id在SHOW PROCESSLIST中显示 ),关掉疑似占CPU高的线程,以确认是否能让CPU降下来。
对于mysql来说,慢SQL及死锁以外的CPU问题确实不好定位,要求对数据库系统及性能非常了解,而对于我们做性能测试的,能做的就是逐层分析,缩小问题范围,实在不行,只能用kill id的方式来试错排查。
附注:
1)show full processlist详解,转载自https://www.cnblogs.com/tongcharge/p/11495393.html
当cpu百分比居高不下时,可使用show processlist分析;
show processlist只列出前100条,show full processlist 可全部列出;
各列的含义和用途:
id列,不用说了吧,一个标识,你要kill一个语句的时候很有用。user列,显示单前用户,如果不是root,这 个命令就只显示你权限范围内的sql语句。host列,显示这个语句是从哪个ip的哪个端口上发出的。呵呵,可以用来追踪出问题语句的用户。db列,显示 这个进程目前连接的是哪个数据库。command列,显示当前连接的执行的命令,一般就是休眠(sleep),查询(query),连接 (connect)。time列,此这个状态持续的时间,单位是秒。state列,显示使用当前连接的sql语句的状态,很重要的列,后续会有所有的状态 的描述,请注意,state只是语句执行中的某一个状态,一个sql语句,已查询为例,可能需要经过copying to tmp table,Sorting result,Sending data等状态才可以完成,info列,显示这个sql语句,因为长度有限,所以长的sql语句就显示不全,但是一个判断问题语句的重要依据。
其中state列最关键,mysql列出的state主要有以下几种:
注:下图中未列出全部状态,如有些状态为查看服务器是否存在错误,未列出
Checking table 正在检查数据表(这是自动的)。Closing tables 正在将表中修改的数据刷新到磁盘中,同时正在关闭已经用完的表。这是一个很快的操作,如果不是这样的话,就应该确认磁盘空间是否已经满了或者磁盘是否正处于重负中。Connect Out 复制从服务器正在连接主服务器。Copying to tmp table on disk 由于临时结果集大于tmp_table_size,正在将临时表从内存存储转为磁盘存储以此节省内存(如果临时表过大会导致mysql将临时表写入硬盘的时间过长,会影响整体性能)。Creating tmp table 正在创建临时表以存放部分查询结果。deleting from main table 服务器正在执行多表删除中的第一部分,刚删除第一个表。deleting from reference tables 服务器正在执行多表删除中的第二部分,正在删除其他表的记录。Flushing tables 正在执行FLUSH TABLES,等待其他线程关闭数据表。Killed 发送了一个kill请求给某线程,那么这个线程将会检查kill标志位,同时会放弃下一个kill请求。MySQL会在每次的主循环中检查 kill标志位,不过有些情况下该线程可能会过一小段才能死掉。如果该线程程被其他线程锁住了,那么kill请求会在锁释放时马上生效。Locked 被其他查询锁住了。Sending data 正在处理SELECT查询的记录,同时正在把结果发送给客户端。Sorting for group 正在为GROUP BY做排序。 Sorting for order 正在为ORDER BY做排序。Opening tables 这个过程应该会很快,除非受到其他因素的干扰。例如,在执ALTER TABLE或LOCK TABLE语句行完以前,数据表无法被其他线程打开。正尝试打开一个表。Removing duplicates 正在执行一个SELECT DISTINCT方式的查询,但是MySQL无法在前一个阶段优化掉那些重复的记录。因此,MySQL需要再次去掉重复的记录,然后再把结果发送给客户端。Reopen table 获得了对一个表的锁,但是必须在表结构修改之后才能获得这个锁。已经释放锁,关闭数据表,正尝试重新打开数据表。Repair by sorting 修复指令正在排序以创建索引。Repair with keycache 修复指令正在利用索引缓存一个一个地创建新索引。它会比Repair by sorting慢些。Searching rows for update 正在讲符合条件的记录找出来以备更新。它必须在UPDATE要修改相关的记录之前就完成了。Sleeping 正在等待客户端发送新请求.(Sleeping过多也是问题,比如wait_timeout设置过大,导致MySQL里大量的SLEEP进程无法及时释放,拖累系统性能,不过也不能把它设置的过小,否则你可能会遭遇到“MySQL has gone away”之类的问题)。System lock 正在等待取得一个外部的系统锁。如果当前没有运行多个mysqld服务器同时请求同一个表,那么可以通过增加--skip-external-locking参数来禁止外部系统锁。Upgrading lock INSERT DELAYED正在尝试取得一个锁表以插入新记录。Updating 正在搜索匹配的记录,并且修改它们。User Lock 正在等待GET_LOCK()。Waiting for tables 该线程得到通知,数据表结构已经被修改了,需要重新打开数据表以取得新的结构。然后,为了能的重新打开数据表,必须等到所有其他线程关闭这个 表。以下几种情况下会产生这个通知:FLUSH TABLES tbl_name, ALTER TABLE, RENAME TABLE, REPAIR TABLE, ANALYZE TABLE,或OPTIMIZE TABLE。waiting for handler insert INSERT DELAYED已经处理完了所有待处理的插入操作,正在等待新的请求。
2)show status查询结果,状态值及含义
Aborted_clients 由于客户没有正确关闭连接已经死掉,已经放弃的连接数量。Aborted_connects 尝试已经失败的MySQL服务器的连接的次数。Connections 试图连接MySQL服务器的次数。Created_tmp_tables 当执行语句时,已经被创造了的隐含临时表的数量。Delayed_insert_threads 正在使用的延迟插入处理器线程的数量。Delayed_writes 用INSERT DELAYED写入的行数。Delayed_errors 用INSERT DELAYED写入的发生某些错误(可能重复键值)的行数。Flush_commands 执行FLUSH命令的次数。Handler_delete 请求从一张表中删除行的次数。Handler_read_first 请求读入表中第一行的次数。Handler_read_key 请求数字基于键读行。Handler_read_next 请求读入基于一个键的一行的次数。Handler_read_rnd 请求读入基于一个固定位置的一行的次数。Handler_update 请求更新表中一行的次数。Handler_write 请求向表中插入一行的次数。Key_blocks_used 用于关键字缓存的块的数量。Key_read_requests 请求从缓存读入一个键值的次数。Key_reads 从磁盘物理读入一个键值的次数。Key_write_requests 请求将一个关键字块写入缓存次数。Key_writes 将一个键值块物理写入磁盘的次数。Max_used_connections 服务器启动后同时使用的连接的最大数目。Not_flushed_key_blocks 在键缓存中已经改变但是还没被清空到磁盘上的键块。Not_flushed_delayed_rows 在INSERT DELAY队列中等待写入的行的数量。Open_tables 当前打开表的数量。Open_files 打开文件的数量。Open_streams 打开流的数量(主要用于日志记载)Opened_tables 已经打开的表的数量。Questions 发往服务器的查询的数量。Slow_queries 要花超过long_query_time时间的查询数量。Threads_connected 当前打开的连接的数量。Threads_running 不在睡眠(激活)的线程数量。Uptime 服务器工作了多少秒。Uptime_since_flush_status 最近一次使用FLUSH STATUS 的时间(以秒为单位)
补充
查看具体查是哪个线程占用CPU最高
### 在Linux中使用top命令找到mysql进程ID
top - 22:11:02 up 279 days, 3:05, 0 users, load average: 5.01, 6.78, 6.42
Tasks: 3 total, 1 running, 2 sleeping, 0 stopped, 0 zombie
%Cpu(s): 76.4 us, 6.8 sy, 0.0 ni, 13.3 id, 1.5 wa, 0.0 hi, 2.0 si, 0.0 st
MiB Mem : 7821.6 total, 133.8 free, 3278.6 used, 4409.2 buff/cache
MiB Swap: 2048.0 total, 393.7 free, 1654.3 used. 4243.3 avail Mem
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
1 mysql 20 0 5850828 2.8g 9560 S 676.7 36.9 218111:07 mysqld
29839 root 20 0 5740 2044 1580 S 0.0 0.0 0:00.01 bash
29845 root 20 0 9816 1848 1388 R 0.0 0.0 0:00.00 top
# 指定进程ID,找到占用CPU最高的线程ID
top -H -p 1
top - 22:11:36 up 279 days, 3:05, 0 users, load average: 5.41, 6.70, 6.41
Threads: 1102 total, 4 running, 1098 sleeping, 0 stopped, 0 zombie
%Cpu(s): 39.3 us, 2.3 sy, 0.0 ni, 56.2 id, 1.7 wa, 0.0 hi, 0.4 si, 0.0 st
MiB Mem : 7821.6 total, 126.3 free, 3272.0 used, 4423.3 buff/cache
MiB Swap: 2048.0 total, 392.4 free, 1655.6 used. 4250.5 avail Mem
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
17943 mysql 20 0 5847756 2.8g 9560 R 81.5 36.8 12:02.04 mysqld
10532 mysql 20 0 5847756 2.8g 9560 R 58.7 36.8 9:18.74 mysqld
31587 mysql 20 0 5847756 2.8g 9560 S 30.7 36.8 52:08.27 mysqld
14865 mysql 20 0 5847756 2.8g 9560 R 27.7 36.8 37:45.00 mysqld
22558 mysql 20 0 5847756 2.8g 9560 S 21.1 36.8 22:24.18 mysqld
6064 mysql 20 0 5847756 2.8g 9560 S 16.8 36.8 4:01.18 mysqld
根据操作系统线程ID找到对应的mysql 线程ID
SELECT
*
FROM
`performance_schema`.threads T
WHERE
T.THREAD_OS_ID = 17943
根据返回结果中的PROCESLIST_INFO等信息,来判断其执行的语句是否可以进行优化
SELECT * FROM `performance_schema`.`processlist` WHERE `processlist`.ID IN
(SELECT
T.PROCESSLIST_ID
FROM
`performance_schema`.threads T
WHERE
T.THREAD_OS_ID = 7013)
注意:docker运行的mysql要在容器内找到线程ID
### 如果容易内没有top命令,如果昌官方基于 debian的mysql镜像,使用如下命令安装top命令
apt-get update
apt-get install procps
### 必须执行apt-get update,否则可能会报E: Unable to locate package procps的错
补充
如果觉得先从分析线程入手比较麻烦,也可以直接通过查询当前正在执行的查询入手
SELECT * FROM `performance_schema`.`processlist`
WHERE COMMAND != 'SLEEP' AND TIME > 1 ORDER BY TIME DESC
直接找出当前下大执行的查询,按执行时间倒充值,占用CPU高的查询往往耗时也比较长