“How to solve the mistmatch between nvidia-smi and driver”版本间的差异

来自cslt Wiki
跳转至: 导航搜索
(以“Some times when we tried to install cuda, it may install corresponding driver, than, accordingly, may cause mismatch between nvidia driver, cuda, and nvidia-smi mana...”为内容创建页面)
 
 
(相同用户的一个中间修订版本未显示)
第1行: 第1行:
 
Some times when we tried to install cuda, it may install corresponding driver, than, accordingly, may cause mismatch between
 
Some times when we tried to install cuda, it may install corresponding driver, than, accordingly, may cause mismatch between
 
nvidia driver, cuda, and nvidia-smi management stuff.
 
nvidia driver, cuda, and nvidia-smi management stuff.
 +
 +
 +
https://comzyh.com/blog/archives/967/
 +
 +
 +
这个问题出现的原因是kernel mod 的 Nvidia driver 的版本没有更新,一般情况下,重启机器就能够解决,如果因为某些原因不能够重启的话,也有办法reload kernel mod。
 +
 +
sudo rmmod nvidia
 +
sudo nvidia-smi
 +
nvidia-smi 发现没有 kernel mod 会将其自动装载。
 +
 +
但是可能需要把相关模块卸载后才能做其它的事。
 +
 +
 +
$lsmod | grep nvidia
 +
nvidia_uvm            647168  0
 +
nvidia_drm            53248  0
 +
nvidia_modeset        790528  1 nvidia_drm
 +
nvidia              12144640  152 nvidia_modeset,nvidia_uvm            12144640  152 nvidia_modeset,nvidia_uvm
 +
 +
可以看到 nvidia 被使用了152词,我们可以先卸载 nvidia_uvm 和 nvidia_modeset
 +
 +
先查看下有哪些进程使用了 nvidia*
 +
 +
 +
sudo lsof -n -w  /dev/nvidia*
 +
这些进程有个了解,如果一会卸载失败,记得关闭相关进程。
 +
 +
卸载
 +
 +
sudo rmmod nvidia_uvm
 +
sudo rmmod nvidia_modeset
 +
sudo rmmod nvidia

2018年5月16日 (三) 01:08的最后版本

Some times when we tried to install cuda, it may install corresponding driver, than, accordingly, may cause mismatch between nvidia driver, cuda, and nvidia-smi management stuff.


https://comzyh.com/blog/archives/967/


这个问题出现的原因是kernel mod 的 Nvidia driver 的版本没有更新,一般情况下,重启机器就能够解决,如果因为某些原因不能够重启的话,也有办法reload kernel mod。

sudo rmmod nvidia sudo nvidia-smi nvidia-smi 发现没有 kernel mod 会将其自动装载。

但是可能需要把相关模块卸载后才能做其它的事。


$lsmod | grep nvidia nvidia_uvm 647168 0 nvidia_drm 53248 0 nvidia_modeset 790528 1 nvidia_drm nvidia 12144640 152 nvidia_modeset,nvidia_uvm 12144640 152 nvidia_modeset,nvidia_uvm

可以看到 nvidia 被使用了152词,我们可以先卸载 nvidia_uvm 和 nvidia_modeset

先查看下有哪些进程使用了 nvidia*


sudo lsof -n -w /dev/nvidia* 这些进程有个了解,如果一会卸载失败,记得关闭相关进程。

卸载

sudo rmmod nvidia_uvm sudo rmmod nvidia_modeset sudo rmmod nvidia