$ nvidia-smi
Unable to determine the device handle for GPU0000:01:00.0: Unknown Error
之前用一个 7b 的模型做推理,连续用了 20 多个小时。后面就不间断出现这个错误了,但是一重启就好了,是不是显卡硬件坏了?
1
GoRoad 137 天前 1
不是工业级的显卡,长时间用可能会出现各种问题,要是重启后能正常,那大概率还没坏 可能是过热之类了
|
3
DigitalG 137 天前 1
“不间断”,是间隔多久?重启就好的话,我遇到过,有可能是 nvidia driver 自动更新导致的。可以看看 driver 版本是不是比那了,或者去系统日志里看看。再配置关闭自动更新。
|
4
HojiOShi 137 天前 1
用的啥显卡,是不是矿卡啊。
|
5
sty OP @DigitalG 坏了之后,driver 我自己更新过了。在使用的时候没报错,比如我跑 3 个小时的训练,能跑完。反而是空闲的时候就报上面这个错。一天 1 到 2 次吧,每天都有
|
7
cinlen 137 天前 1
dmesg 看看内核日志有无异常
|
8
rickiey 137 天前 1
监控下温度,频率,显存这些数据,还有功率
|
9
sty OP @cinlen [ 2.018550] [drm] [nvidia-drm] [GPU ID 0x00000100] Loading driver
[ 369.857712] NVRM: GPU 0000:01:00.0: Failed to enable MSI; falling back to PCIe virtual-wire interrupts. [ 493.216012] NVRM: GPU 0000:01:00.0: Failed to enable MSI; falling back to PCIe virtual-wire interrupts. [ 1537.808965] NVRM: GPU 0000:01:00.0: Failed to enable MSI; falling back to PCIe virtual-wire interrupts. [ 1764.689999] NVRM: GPU 0000:01:00.0: Failed to enable MSI; falling back to PCIe virtual-wire interrupts. [ 1766.588211] NVRM: GPU 0000:01:00.0: Failed to enable MSI; falling back to PCIe virtual-wire interrupts. [ 1775.551022] NVRM: GPU 0000:01:00.0: Failed to enable MSI; falling back to PCIe virtual-wire interrupts. 老哥帮忙看下 |
10
sty OP @rickiey nvidia-smi
``` Mon Aug 12 15:30:33 2024 +-----------------------------------------------------------------------------------------+ | NVIDIA-SMI 550.107.02 Driver Version: 550.107.02 CUDA Version: 12.4 | |-----------------------------------------+------------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+========================+======================| | 0 NVIDIA GeForce RTX 3090 Ti Off | 00000000:01:00.0 Off | Off | | 30% 41C P0 N/A / 450W | 1MiB / 24564MiB | 0% Default | | | | N/A | +-----------------------------------------+------------------------+----------------------+ +-----------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=========================================================================================| | No running processes found | +-----------------------------------------------------------------------------------------+ ``` |
11
cinlen 137 天前
在正常和异常时分别执行一下 lspci -s 01:00.0 -nnDk 命令看看这张显卡的驱动名是什么。 我有一张 nvidia telsa 温度飙到 90 摄氏度都没出现过你这个问题。
|
12
sty OP @cinlen 正常情况下 lspci -s 01:00.0 -nnDk
0000:01:00.0 VGA compatible controller [0300]: NVIDIA Corporation Device [10de:2203] (rev a1) Subsystem: Device [7377:2000] Kernel driver in use: nvidia libkmod: kmod_config_parse: /etc/modprobe.d/blacklist-nouveau.conf line 1: ignoring bad line starting with 'cklist' Kernel modules: nouveau, nvidia_drm, nvidia |
13
daishuge 137 天前 via Android
圈外人,想问一下这种能不能走保修,如果是正规平台买的话,谢谢
|
14
lsp7572 137 天前
搜了下网上有人碰到,比如电源问题啥的,这个你自己搜索过,或者尝试过没,从问题没看出来试过
|
16
huaijin 137 天前
设备管理器,看看显卡驱动是不是损坏了
|
17
sweelia 137 天前 1
2080ti 改 22g ,遇到训练几天就中断,提示通讯/io 相关的异常,内核驱动进入了异常状态,只能重启恢复。
大聪明的我以为是驱动兼容性问题,写了个脚本自动重启,自动恢复训练。 然后过了 2 个多星期驱动彻底不认卡了。仔细检查是显存虚了,拆下重焊恢复正常,然后限制最高功率,加散热,目前几个月没再遇到需要重启的情况 |