在 Linux 上装了驱动,一开始能用,后来过一段时间可,nvidia-smi 就用不了。
提示: NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
我印象中没有主动更新 NVIDIA 驱动,但是我在使用中确实装过其他软件。可能是这个原因更新了 NVIDIA 驱动。
之前遇到过几次这个问题,每次都是重装驱动。
求一个稳定的解决方法。
1
devliu1 49 天前
nvidia-docker
|
2
nolan1864 49 天前 1
把系统内核版本固定住就行了
|
3
skyrim61 49 天前
同问, 老是掉驱动, 如何保证驱动的稳定呢
|
4
nuII 49 天前 1
安装驱动的时候带上--dkms ,这样就算内核更新了,驱动也不会掉
|
5
shika 49 天前 via Android
是内核更新了,而不是驱动更新了
|
6
Cineray 49 天前
内核更新了,重启就好了
|
7
yaott2020 49 天前 via Android
用 dkms
|
8
Tink 49 天前
dkms +1
|
9
tsanie 49 天前
用 dkms+2
|
10
jaswer 49 天前
内核更新了吧
|
11
vcn8yjOogEL 49 天前
用系统包管理器安装, 闭源驱动每次更新都需要重新编译内核模块
|
12
guo4224 48 天前
使用 apt 更新完事,别没事自己瞎折腾
|
13
z131 48 天前
apt-mark hold linux-image-generic linux-headers-generic linux-image-extra 关闭内核更新
|
14
misaki321 48 天前
把内核更新关了
|
15
nutting 48 天前
内核更新了,前几天刚解决,回退了。然后锁定
|
16
liyafe1997 48 天前
@devliu1 这玩意也是依赖内核驱动的,只是打包成 docker 方便你用用户空间的东西,并不是驱动本身。
|
17
ayasakinagi 48 天前
更新内核前备份一下 /usr/lib/modules 目录下的内容, 更新完内核再复制回去就行了.
懒得弄的话可以搞个自动的 hook 脚本, 比如 archlinux 下的 linux-keep-modules |
18
TsukiMori 48 天前 via Android
gentoo+NVIDIA 实在酸爽
已经复读了好几次 linus 的传世名言了 |
19
Carson089 48 天前
1. 宿主机的 nvidia 驱动支持最新的 cuda 版本就好,不要随意更新 nvidia 驱动
2. 不同的项目可能需要不同的 cuda 版本,在 docker 中安装 cuda 与 cudnn 3. 还有个选择是,anaconda/conda 等使用虚拟环境。安装需要的 gpu 的项目时候会自动下载 cuda/cudnn 相关到环境中 |
20
cyningxu 48 天前 via Android
so Nvidia ,fxxk u
|
21
Jirajine 48 天前
换一个官方支持 nvidia 驱动的发行版,任何时候安装的内核和 nvidia 驱动都是兼容的版本。不要手动用 nvidia 官方的脚本安装。
|
22
wuruxu 48 天前
装 Linux 推荐 APU 的笔记本
|
23
llsquaer 48 天前
我是 windows 老是掉驱动。每次都要重新装一次。不知道咋个解决。时间不固定,中途也没安装其他软件。差不过一个月 二个月 掉一次。前几天又掉驱动 cuda 就没法用。哎
|
24
Quetalocatl 48 天前
Ubuntu 用 N 卡還是很穩定的,用自帶的驅動就好,LTS 版本用了好多年,顯都換了仍然很穩定
|
25
chopin1998519 48 天前
自己编译的内核就用 dkms ,
但是有一定机会新内核或者新驱动 互相不对付。 求稳就用 nv cuda 的源, 然后控制好内核就行了。 多台机器都没事儿 |
26
GoRoad 48 天前
更新内核了吧,驱动跟内核属于强绑定关系的,遇到过内核版本高了一个小版本,整个驱动都挂了,卸载驱动都会 hangs ,系统直接重启并且自行回滚到之前的情况
|
27
dmanbu 48 天前
显卡休眠了,要开启 GPU 的 Persistence Mode
比如这样: systemctl start nvidia-persistenced systemctl enable nvidia-persistenced |
28
qbqbqbqb 25 天前
不要用官网的.run 安装,始终使用发行版的软件源来安装 NVIDIA 驱动,这样驱动可以随系统内核一起更新,避免掉驱动。
绝大多数 Linux 安装 NVIDIA 驱动翻车,都是使用官网.run 安装包的锅。 使用这个所谓的官方安装包是需要你有非常熟练的运维经验的。而且这个看上去像是通用安装包的东西,实际上并不是能够完美适配所有发行版。如果恰好遇到一个不适配的,可能装完重启就黑屏,或者下一次更新就掉驱动。 永远记住,发行版软件源里的软件总是适配最好的,也是 Linux 中安装任何软件优先考虑的安装方式。 比如 ubuntu 系统首先考虑使用 GUI 的“硬件驱动”或者命令行 apt 安装 nvidia 驱动,如果官方源里版本不合适的话可以使用 ppa 。没有运维经验不要用官网.run 。 如果要使用来自官网.run 版本的 CUDA 的话,一定要关闭 CUDA 安装包中的安装驱动的选项,然后另行通过发行版软件源安装驱动。 |
29
qbqbqbqb 25 天前
@qbqbqbqb 总结一下安装方式(以 ubuntu 为例)
推荐使用: 1. 发行版官方源 apt 直接安装 2. NVIDIA 官网 CUDA 的 deb 源(注意发行版版本一致) 3. 第三方软件源比如 ppa (个人电脑尝鲜使用,注意发行版版本一致) 谨慎使用(需要运维经验): NVIDIA 官网 .run 安装包(驱动安装包尽量不使用,CUDA 安装包去掉安装驱动选项) 严禁使用: 不适配当前发行版版本的 deb 或者软件源 |
30
qbqbqbqb 25 天前
@qbqbqbqb 总结一下安装方式(以 ubuntu 为例)
推荐使用: 1. 发行版官方源 apt 直接安装 2. NVIDIA 官网 CUDA 的 deb 源(注意发行版版本一致) 3. 第三方软件源比如 ubuntu ppa (个人电脑尝鲜使用,注意发行版版本一致) 谨慎使用(需要运维经验): NVIDIA 官网 .run 格式的安装包(驱动安装包尽量不使用,CUDA 安装包去掉安装驱动选项) 严禁使用: 不适配当前发行版版本的 deb 或者软件源 |
31
faoisdjioga OP @qbqbqbqb 感谢总结。我的 Ubuntu 是在 esxi 里面的。然后显卡直通后首先出现的问题是显卡无法识别,lspci 无法正确识别 rtx4070 。后来尝试过多种方式识别之后。通过 Ubuntu 自带驱动还是识别不了显卡。又尝试了多种方式之后,只有通过 run 文件安装的方式可以识别显卡
|