记录一次服务器死机分析
less /var/log/messages
查看到死机前的几行
Jun 16 13:01:01 kvmserver systemd: Started Session 26 of user root.
Jun 16 13:10:01 kvmserver systemd: Started Session 27 of user root.
Jun 16 13:20:01 kvmserver systemd: Started Session 28 of user root.
Jun 16 13:30:01 kvmserver systemd: Started Session 29 of user root.
Jun 16 13:40:01 kvmserver systemd: Started Session 30 of user root.
Jun 16 13:50:01 kvmserver systemd: Started Session 31 of user root.
Jun 16 14:00:01 kvmserver systemd: Started Session 32 of user root.
Jun 16 14:01:01 kvmserver systemd: Started Session 33 of user root.
Jun 16 14:10:01 kvmserver systemd: Started Session 34 of user root.
Jun 16 14:20:02 kvmserver systemd: Started Session 35 of user root.
Jun 16 14:30:02 kvmserver systemd: Started Session 36 of user root.
Jun 16 14:40:01 kvmserver systemd: Started Session 37 of user root.
Jun 16 14:45:20 kvmserver kernel: perf: interrupt took too long (2563 > 2500), lowering kernel.perf_event_max_sample_rate to 78000
Jun 16 14:50:01 kvmserver systemd: Started Session 38 of user root.
Jun 16 15:00:01 kvmserver systemd: Started Session 39 of user root.
Jun 16 15:01:01 kvmserver systemd: Started Session 40 of user root.
Jun 16 15:10:01 kvmserver systemd: Started Session 41 of user root.
Jun 16 15:20:01 kvmserver systemd: Started Session 42 of user root.
Jun 16 15:30:01 kvmserver systemd: Started Session 43 of user root.
Jun 16 15:40:01 kvmserver systemd: Started Session 44 of user root.
Jun 16 15:50:01 kvmserver systemd: Started Session 45 of user root.
Jun 16 16:00:01 kvmserver systemd: Started Session 46 of user root.
Jun 16 16:01:01 kvmserver systemd: Started Session 47 of user root.
Linux 内核使用"性能"性能监视器收集样品,而不影响延迟。
这些包括中断时间。如果中断时间过长,则与此打印类似的消息:
kernel: [ 6491.061361] perf: interrupt took too long (6650 > 6452), lowering kernel.perf_event_max_sample_rate to 30000
这意味着
这基本上意味着机器长时间处于中断。这可能是由多种原因造成的,包括:
磁盘 IO 中断时间长 ,将由故障、缓慢或超载磁盘引起。或者,这也可能由磁盘或突袭控制器的问题引起。
网络 IO 中断时间过长 通常是由于网络驱动程序问题不理想造成的。或者,这也可以由网络问题引起,尽管协议切换理论上应该会阻止它。
磁盘 IO 可轻松通过磁盘 IO 统计数据(sysstat-sar 和/或 iostat)进行检查并确认。如果磁盘 IO 不是缓慢中断的原因,则网络 IO 将是。为此,需要在网络和/或内核方面检查问题。
故障排除的第一点应包括检查/var/logs/(messages|syslog)中的内核消息以及dmesg。如果这些显示来自 vmxnet 驱动程序的痕迹,中断时间过长将由网络驱动程序故障引起。请联系网卡提供商,或尝试升级到最新的可用稳定内核。
如果内核驱动程序没有问题,网络将是最容易出错的,很可能是第一跳。然后需要在网络方面检查这一点。
grep -iE "error|warn|kernel" /var/log/messages
dmesg -T | grep -iE "error|warn|kernel"
[Thu Jun 17 15:39:06 2021] systemd[1]: Started Apply Kernel Variables.
[Thu Jun 17 15:39:15 2021] ACPI Warning: SystemIO range 0x0000000000000428-0x000000000000042f conflicts with OpRegion 0x0000000000000400-0x000000000000043f (\PMB0) (20130517/utaddress-254)
[Thu Jun 17 15:39:31 2021] L1TF CPU bug present and SMT on, data leak possible. See CVE-2018-3646 and https://www.kernel.org/doc/html/latest/admin-guide/l1tf.html for details.
dmesg报错时间对不上
无法是磁盘io问题还是网卡问题
[root@kvmserver log]# sar -n DEV
Linux 3.10.0-957.el7.x86_64 (kvmserver) 06/17/2021 _x86_64_ (4 CPU)
03:08:47 PM LINUX RESTART
03:10:01 PM IFACE rxpck/s txpck/s rxkB/s txkB/s rxcmp/s txcmp/s rxmcst/s
03:20:01 PM br0 4.07 0.00 0.50 0.00 0.00 0.00 0.00
03:20:01 PM eno1 4.08 0.00 0.57 0.00 0.00 0.00 1.14
03:20:01 PM lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00
03:20:01 PM virbr0-nic 0.00 0.00 0.00 0.00 0.00 0.00 0.00
03:30:01 PM br0 5.37 0.01 0.60 0.00 0.00 0.00 0.00
03:30:01 PM eno1 5.37 0.01 0.70 0.00 0.00 0.00 1.30
03:30:01 PM lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00
03:30:01 PM virbr0-nic 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Average: br0 4.72 0.01 0.55 0.00 0.00 0.00 0.00
Average: eno1 4.73 0.01 0.63 0.00 0.00 0.00 1.22
Average: lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Average: virbr0-nic 0.00 0.00 0.00 0.00 0.00 0.00 0.00
03:39:21 PM LINUX RESTART
03:40:01 PM IFACE rxpck/s txpck/s rxkB/s txkB/s rxcmp/s txcmp/s rxmcst/s
03:50:01 PM br0 16.50 12.22 29.83 2.50 0.00 0.00 0.00
03:50:01 PM eno1 27.89 12.35 30.90 2.56 0.00 0.00 1.13
03:50:01 PM lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00
03:50:01 PM virbr0-nic 0.00 0.00 0.00 0.00 0.00 0.00 0.00
04:00:01 PM br0 4.43 0.09 0.58 0.01 0.00 0.00 0.00
04:00:01 PM eno1 4.44 0.09 0.66 0.01 0.00 0.00 1.61
04:00:01 PM lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00
04:00:01 PM virbr0-nic 0.00 0.00 0.00 0.00 0.00 0.00 0.00
04:10:01 PM br0 5.40 0.47 0.64 0.06 0.00 0.00 0.00
04:10:01 PM eno1 10.61 9.65 1.42 1.06 0.00 0.00 1.67
04:10:01 PM vnet1 4.93 5.85 0.50 0.86 0.00 0.00 0.00
04:10:01 PM lo 0.08 0.08 0.01 0.01 0.00 0.00 0.00
04:20:01 PM br0 3.56 1.60 0.57 0.95 0.00 0.00 0.00
04:20:01 PM eno1 8.95 11.25 1.29 1.96 0.00 0.00 1.16
04:20:01 PM vnet1 5.08 5.24 0.48 0.85 0.00 0.00 0.00
04:20:01 PM lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00
04:30:01 PM br0 4.74 2.44 0.66 1.05 0.00 0.00 0.00
04:30:01 PM eno1 10.19 12.17 1.41 2.08 0.00 0.00 1.34
04:30:01 PM vnet1 5.14 5.61 0.49 0.89 0.00 0.00 0.00
04:30:01 PM lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00
04:40:01 PM br0 3.89 0.18 0.54 0.04 0.00 0.00 0.00
04:40:01 PM eno1 9.24 9.81 1.28 1.06 0.00 0.00 1.37
04:40:01 PM vnet1 4.75 6.51 0.46 0.88 0.00 0.00 0.00
04:40:01 PM lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00
04:50:01 PM br0 2.60 0.16 0.47 0.01 0.00 0.00 0.00
04:50:01 PM eno1 7.84 9.36 1.16 0.98 0.00 0.00 1.26
04:50:01 PM vnet1 4.90 5.29 0.47 0.82 0.00 0.00 0.00
04:50:01 PM lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Average: br0 5.87 2.45 4.76 0.66 0.00 0.00 0.00
Average: eno1 11.31 9.24 5.44 1.39 0.00 0.00 1.36
Average: vnet1 3.54 4.07 0.34 0.61 0.00 0.00 0.00
Average: lo 0.01 0.01 0.00 0.00 0.00 0.00 0.00
[root@kvmserver log]# iostat
Linux 3.10.0-957.el7.x86_64 (kvmserver) 06/17/2021 _x86_64_ (4 CPU)
avg-cpu: %user %nice %system %iowait %steal %idle
2.76 0.00 1.94 0.53 0.00 94.76
Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn
sda 7.31 204.33 39.78 1003853 195463
dm-0 7.32 202.03 39.78 992568 195431
dm-1 0.02 0.50 0.00 2460 0
暂时没看出问题究竟在哪,再观察两天
服务器死机的原因
服务器死机的原因如下:1、软硬件不兼容。三维软件和一些特殊软件,在有的微机上不能正常启动甚至安装,可能就有软硬件兼容方面的问题。2、某些软件程序不是标准化的,不能先加载并运行,而是先运行,会导致系统管理混乱。 Beta软件在某些方面不够稳定,使用后,可能会导致系统无法启动。3、在小内存的情...
服务器经常死机是什么原因?
1、硬盘损坏 最近电脑是不是有非法关机的情况,比如:突然断电。最好是修复一下硬盘试试。2、内存条松动 如果你最近有搬动过电脑,可能就会造成内存条的松动,内存条接触不良就会经常死机。这种情况最好是检查一下内存条是否松动,然后重新插一下内存条。3、电脑灰尘太多,散热不良。电脑主机内的灰尘多会...
记录一次服务器异常重启,CK启动失败
生产的CK集群模式为4*2,即4个shard,其中每个shard有2个replica,采用复制表(Replicated)。集群中一个CK节点,因服务器电压不稳意外重启后,CK启动失败,一直报错:查找官方文档中,在 Data Replication 说明这里,提到了故障恢复方法:注意这里flage目录可以是你安装时指定的具体clickhouse根目录。然后重启...
服务器死机的原因都哪些?
(2)安装不当导致部件变形、损坏引起的死机口径不正确、长度不恰当的螺钉常常导致部件安装孔损坏,螺钉接触到部件内部电路引起短路导致死机,不规格的主板、零部件或不规范的安装步骤常常引起机箱、主板、板卡外形上的变异因而挤压该部件内部元件导致局部短路、内部元件损坏从而发生莫名其妙的死机。如果只是电脑部件外观变形,可...
win2000服务器死机问题.
【设备不匹配】 如主板主频和CPU主频不匹配,老主板超频时将外频定得太高,可能就不能保证运行的稳定性,因而导致频繁死机。【软硬件不兼容】 三维软件和一些特殊软件,可能在有的微机上就不能正常启动甚至安装,其中可能就有软硬件兼容方面的问题。【内存条故障】 主要是内存条松动、虚焊或内存芯片本身...
服务器iis假死的原因及解决方法
宕机,指操作系统无法从一个严重系统错误中恢复过来,或系统硬件层面出问题,以致系统长时间无响应,而不得不重新启动计算机的现象。对于iis服务器假死,相信很多管理者都遇到过,下面一起看看原因和解决方法!单个网站解决方法:把应用程序池回收时间缩短到300-600分钟,其间回收过程中,需要占用一点CPU资源,...
为什么服务器假死机?
由软件引起的死机故障也可以分为两种。1.启动或关闭操作系统时死机 启动时的死机情况有时与硬盘的BIOS设置有关。如果BIOS设置没有问题。那么原因可能出在Config.sys及Autoexec.bat文件上。多数是CD-ROM惹的祸。如果Config.sys和Autoexec.bat文件使系统挂接了DOS实模式下的光驱驱动程序,那么就容易造成死机...
服务器宕机会有什么样的后果?安全可靠的服务器要怎么选择?
服务器宕机有可能是网络故障,有可能是突发的访问量暴增、服务器处理不过来的问题。服务器处理和响应不过来,会导致丢弃部分请求不予处理,更严重的会导致服务端崩溃。防止由于服务器宕机可能导致的数据丢失问题的解决办法有:一、数据备份与“多云”如果是物理机,要做好数据备份,比如做raid;如果是选择...
无盘服务器死机
硬盘是企业级的原装货吗??这种情况的话,推荐先给服务器做个大清理,排除一些接触不良的问题,然后再看看是否同样出问题。如果还是这样,就要怀疑是不是硬盘有问题了。还有一个不太可能出现的问题,就是不兼容,或者硬盘散热没有跟上。
死机重启后登录局域网其中一台共享服务器出现灰色的guest登录页面_百度...
1、打开资源管理器 2、在 工具菜单选择文件夹选项 3、点选 查看-高级选项 4、取消勾选“简单文件共享”。5、确定。:) 或者:1、修改组策略计算机设置--windows设置--安全设置--本地策略--用户权利指派修改“从网络访问此计算机” 添加guest;同时从“拒绝从网络访问此计算机”中删除guest。2、运行...
芷珊益脉: 其实服务器宕机就是我们常说的死机了,服务器死机就会导致网站不能正常打开,遇到这种情况我们首先应该判断是服务器真的死机了,还是只是一个假象.有一种情况是服务器的硬件资源被耗尽,但只是暂时性的,从而不能响应外部的指令...
旬阳县17255177430: 服务器死机会记录在日志事件里吗 - ?
芷珊益脉: 云主机的使用过程中可能会遇到无故死机等情况,我们应该如果检查是什么原因造成我的主机死机呢?我们可以利用系统自带的“事件查看器”.首先,点击“开始”→”运行”,输入eventvwr,点击“确定”,就可以打开事件查看器.在事件...
旬阳县17255177430: HP服务器死机问题!~~~ - ?
芷珊益脉: 死机的原因是多样的,可能是硬件问题,也可能是设置问题,还有就是电脑该清理了~ 建议楼主自己先检测一番~ 1 有没有添加或外接硬件设备,如果有移除这些设备看看否解决; 2 开机按F8进入安全模式下使用机器看看是否会出现死机,如果有保存重要的文件后格式化硬盘安装系统看看是否可以解决,如果没有可以尝试进行全盘查杀病毒并关闭不需要的开机启动项看看是否可以解决,如果依旧无法解决可以尝试重新安装操作系统; 3 是否笔记本温度较高时才出现此故障,如果是可以尝试清理机器灰尘看看是否可以解决
旬阳县17255177430: 服务器死机问题?
芷珊益脉: 一般多来源于硬盘或者阵列卡,少数是主板和内存,偶尔因为电源.最好让售后来看看.
旬阳县17255177430: 为什么服务器假死机? - ?
芷珊益脉: 电脑死机故障全面剖析 死机是一种电脑常见故障.死机时的表现多为蓝屏、无法启动系统、画面“定格”无反应、用鼠标,键盘无法输入等.尽管造成死机的原因是多方面的,但是万变不离其宗,其原因永远也脱离不了硬件与软件两方面.下面...
旬阳县17255177430: 服务器老是死机怎么回事 - ?
芷珊益脉: 硬盘,和主板的接线口, 用酒精插下,硬盘线,两块钱一根,换个.内存条,橡皮插下,电源风扇,清理下尘,检查主板的电池,电容有没有坏的
旬阳县17255177430: 服务器频繁死机最近单位的一台HP服务器总是频繁死机可疑点:死机的 ?
芷珊益脉: 首先确定电脑发生故障前的情况,如果电脑是在搬移之后发生死机,可能是电脑在移动过程中受到很大震动,致使电脑内部的部件松动而接触不良造成死机.打开机箱把内存,显卡等设备重新紧固即可.
旬阳县17255177430: 怎么检查云主机死机原因 - ?
芷珊益脉: 第一,点击“开始”→”运行”,输入eventvwr,点击“确定”,就可以打开事件查看器. 在事件查看器中我们可以看到“应用程序”、“安全性”、“系统”、“Internet Explorer”.系统事件的故障,如死机、服务异常等,我们主要查看“系统”日志.在日志中有类型为:信息、警告、错误,三钟类型的日志.死机的原因记录一般会写到“错误”和“警告”中.我们应该先按日期排序,找到您主机死机的那个时间点所记录到的日志.然后查看类型为“警告”或者“错误”的日志.
旬阳县17255177430: 雷网主机遇到的服务器常见问题的分析与解决方案??
芷珊益脉:网络IT业从幼稚逐渐走向成熟,很多行业都慢慢发展起来,而这时服务器存在的意义也越来越大,服务器安全关系到公司企业的命脉,虽然很多企业都聘请了高级网络管理员,但是服务器问题是必不可免的,本文就罗列了一些常见的服务器问题...
旬阳县17255177430: 服务器经常死机? - ?
芷珊益脉: 看你的配置,网卡是INTER品牌而下面的提示都是其他厂商的网卡不过根据死机情况,建议对网络流量进行分析并且提醒对WIN2K进行补丁升级,或者更新系统到win2003