百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 优雅编程 > 正文

惊了:《记一次数据库CPU使用率100%排查》

sinye56 2024-10-10 10:38 12 浏览 0 评论

1.背景:

在监控线上数据库的运行是否安全、正常的过程中,cpu 使用率是一个重要的指标,一旦cpu使用率飙升至90%+甚至达到100%,必然会对数据库的正常工作产生影响。

在排查数据库的cpu 飙升的问题前,我们先看下cpu 飙升的原因有哪些。

2.cpu使用率飙升的原因

首先直观的,cpu使用率过高可能和流量和慢查询有一定的关系

进一步查阅相关资料,得到公式:单位时间 CPU 资源 = 查询执行的平均成本 x 单位时间执行的查询数量

显然,cpu使用率与【查询执行的平均成本】和【单位时间执行的查询数量】线性相关,而这两项就是我们常说的慢sql以及数据库QPS。

所以:一般而言,cpu使用率飙升可归纳为以下两点:

  • 大量的慢sql占用了cpu资源,拖垮了数据库,这类的慢sql常常表现为:查询的数据量过大,全表扫描、锁抢占甚至死锁、复杂查询等
  • QPS过高,本质上是数据库的承载的流量过大

3.如何解决

3.1 定位问题

定位是否为qps原因:

例如以下案例:

首先,查看当前cpu曲线:

发现此时的cpu已经解决100%在运行,再查看此时的qps曲线,

会发现此时的qps曲线基本和cpu曲线保持一致,此时我们可断定cpu飙升必然存在qps过高的原因。为了验证是否有慢sql的存在,再查看慢sql曲线:

发现此案例中完全不存在慢sql。因此责任可100%归为qps过高,如果我们对该库所在实例开通的sql审计的功能,我们可查看过去一个月的qps记录,判断是由哪台机器发出的高频请求,以及请求的Top调用量的sql。

如果我们没开通sql审计功能的话,阿里云也可查看当前对库的实时请求记录,或者我们可以以root用户登陆数据库,执行‘SHOW PROCESSLIST’命令查看。

最后 定位了具体sql或者接口后 就可以针对性的解决问题:降级或者限流。

定位是否为慢sql原因

案例1 CPU峰刺

例如以下案例:

首先,查看当前cpu和qps曲线:

从上图我们可看出,cpu和qps的整体的整体走势是基本一致的,但是上图中相对qps曲线,cpu有好几次的抖动,甚至峰值达到80%,我们需要排查出这些峰刺点。

由于此时的cpu抖动和qps曲线不一致,可推测是慢sql引起的,观察下图抖动时间段内的慢sql,确定是否有慢sql,以及慢sql的具体信息。

观察上图发现该时间段内一些慢sql在库上使得cpu曲线发生了抖动,此时可采取kill+id的方法定制该sql的执行。

案例2 CPU明显飙升

有时,我们会发现cpu和qps的曲线不够吻合,此时我们有较大的把握推测出原因就是慢sql引起的。如以下情况:

红框内的cpu使用率在上升,但qps却在下降,观察以下慢sql监听:

说明这段时间内的异常是100%是由慢sql引起的,可采取kill+id的方法定制该sql的执行。

4 总结

4.1 慢sql优化思路

慢sql的优化思路较多,本文不打算赘述,仅提供以下几个方面优化思路。

  • 1.扫描数据库记录数较多。

考虑表是否设置了合理的索引,表字段是否设置了合理的数据类型,sql是否有效的利用了索引等。

  • 2.sql中是否有做了大量的聚合、计算?

考虑将sql简化,把逻辑操作上浮到业务中去做。

  • 3.sql返回的记录数过多。
  • 考虑分页实现,通过limit将一次请求转为多次请求。
  • 4.表中是否冗余字段过多?
  • 表若为宽表,包含大量冗余字段,可考虑分表。
  • 5.库中是否有很多张表?
  • 此时可考虑将表拆分到多个库中,分库。
  • 6.若库的读写较多,锁争抢激励,甚至死锁。
  • 可考虑多库做读写分离。
  • 7.机器的本身性能较低,不符合业务需求。
  • 可考虑机器升级了。

4.2 qps过高优化思路。

  • 1.qps过高时,考虑是否可以使用缓存。
  • 2.使用批量操作,将多个操作合并为一次请求,但此种方式需要考虑是否可以一次批量的数据有多大,避免造成慢sql。
  • 3.考虑分库、读写分离,减少对一个机器的访问压力。
  • 4.机器升级,没什么是钱解决不了的。

关注作者:JAVA高级程序员

我会不定期在微头条发放:(Java工程化、分布式架构、高并发、高性能、深入浅出、微服务架构、Spring、MyBatis、Netty、源码分析)等技术学习资料,以及Java进阶学习路线图。

相关推荐

Linux基础知识之修改root用户密码

现象:Linux修改密码出现:Authenticationtokenmanipulationerror。故障解决办法:进入单用户,执行pwconv,再执行passwdroot。...

Linux如何修改远程访问端口

对于Linux服务器而言,其默认的远程访问端口为22。但是,出于安全方面的考虑,一般都会修改该端口。下面我来简答介绍一下如何修改Linux服务器默认的远程访问端口。对于默认端口而言,其相关的配置位于/...

如何批量更改文件的权限

如果你发觉一个目录结构下的大量文件权限(读、写、可执行)很乱时,可以执行以下两个命令批量修正:批量修改文件夹的权限chmod755-Rdir_name批量修改文件的权限finddir_nam...

CentOS「linux」学习笔记10:修改文件和目录权限

?linux基础操作:主要介绍了修改文件和目录的权限及chown和chgrp高级用法6.chmod修改权限1:字母方式[修改文件或目录的权限]u代表所属者,g代表所属组,o代表其他组的用户,a代表所有...

Linux下更改串口的权限

问题描述我在Ubuntu中使用ArduinoIDE,并且遇到串口问题。它过去一直有效,但由于可能不必要的原因,我觉得有必要将一些文件的所有权从root所有权更改为我的用户所有权。...

Linux chown命令:修改文件和目录的所有者和所属组

chown命令,可以认为是"changeowner"的缩写,主要用于修改文件(或目录)的所有者,除此之外,这个命令也可以修改文件(或目录)的所属组。当只需要修改所有者时,可使用...

chmod修改文件夹及子目录权限的方法

chmod修改文件夹及子目录权限的方法打开终端进入你需要修改的目录然后执行下面这条命令chmod777*-R全部子目录及文件权限改为777查看linux文件的权限:ls-l文件名称查看li...

Android 修改隐藏设置项权限

在Android系统中,修改某些隐藏设置项或权限通常涉及到系统级别的操作,尤其是针对非标准的、未在常规用户界面显示的高级选项。这些隐藏设置往往与隐私保护、安全相关的特殊功能有关,或者涉及开发者选项、权...

完蛋了!我不小心把Linux所有的文件权限修改了!在线等修复!

最近一个客户在群里说他一不小心把某台业务服务器的根目录权限给改了,本来想修改当前目录,结果执行成了根目录。...

linux改变安全性设置-改变所属关系

CentOS7.3学习笔记总结(五十八)-改变安全性设置-改变所属关系在以前的文章里,我介绍过linux文件权限,感兴趣的朋友可以关注我,阅读一下这篇文章。这里我们不在做过的介绍,注重介绍改变文件或者...

Python基础到实战一飞冲天(一)--linux基础(七)修改权限chmod

#07_Python基础到实战一飞冲天(一)--linux基础(七)--修改权限chmod-root-groupadd-groupdel-chgrp-username-passwd...

linux更改用户权限为root权限方法大全

背景在使用linux系统时,经常会遇到需要修改用户权限为root权限。通过修改用户所属群组groupid为root,此操作只能使普通用户实现享有部分root权限,普通用户仍不能像root用户一样享有超...

怎么用ip命令在linux中添加路由表项?

在Linux中添加路由表项,可以使用ip命令的route子命令。添加路由表项的基本语法如下:sudoiprouteadd<network>via<gateway>这...

Linux配置网络

1、网卡名配置相关文件回到顶部网卡名命名规则文件:/etc/udev/rules.d/70-persistent-net.rules#PCIdevice0x8086:0x100f(e1000)...

Linux系列---网络配置文件

1.网卡配置文件在/etc/sysconfig/network-scripts/下:[root@oldboynetwork-scripts]#ls/etc/sysconfig/network-s...

取消回复欢迎 发表评论: