0
点赞
收藏
分享

微信扫一扫

记录一次实验室linux系统的GPU服务器死机故障的排查——Linux系统的Power States

实验室的ubuntu服务器不知怎么的突然又崩溃了,死机重启,然后查看日志,发现了下面的情况:

记录一次实验室linux系统的GPU服务器死机故障的排查——Linux系统的Power States_d3

 

 

 

 

由于从其他的日志中知道是显卡的问题引起的死机,而这个显卡的地址正好是D9:00,这部分的日志就不给出了。结合上面给出的日志,从这个Power State中可以判断显卡崩溃的时候该显卡的电源状态转为了D0。

记录一次实验室linux系统的GPU服务器死机故障的排查——Linux系统的Power States_Linux_02

 

 

 

-------------------------------------------

 

 

那么我们根据这些信息可以得到一个什么结论呢(或许是猜测)?

网上查了下资料:

Power States(MSDN 翻译)

​​电源管理驱动是如何切换各种电源状态的(D0,D1,D2,D3,D4)?​​

​​https://learn.microsoft.com/en-us/windows-hardware/drivers/kernel/device-power-states?redirectedfrom=MSDN

​​http://www.winwin7.com/JC/5847.html​​

​​https://www.xitongcheng.com/jiaocheng/win10_article_57154.html​​


 

 

 

记录一次实验室linux系统的GPU服务器死机故障的排查——Linux系统的Power States_d3_03

 

 

 

可以知道D0的这个电源状态是最高的,这也就是意味着系统死机时的3号显卡的电源状态最高,而此时该显卡崩溃从而导致系统死机,因此我们就可以预估出此时的该显卡功率是最高的,此时的该卡GPU使用率也是极高的,由此我们就可以猜测出造成该显卡崩溃最后导致整个系统死机的主要原因就是3号显卡满功率运行造成的问题。

 

 

 

个人一个观点,如果linux系统死机,并且该死机是由某个计算硬件设备造成的,如本文中的GPU,而该设备造成系统崩溃的同一时间的电源状态为最高的D0,那么就有理由怀疑导致此次死机的主要原因就是该计算设备的满负荷运行造成的。

 

 

 

=================================================

 

举报

相关推荐

0 条评论