“How to solve the mistmatch between nvidia-smi and driver”版本间的差异

来自cslt Wiki
跳转至: 导航搜索
 
第4行: 第4行:
  
 
https://comzyh.com/blog/archives/967/
 
https://comzyh.com/blog/archives/967/
 +
 +
 +
这个问题出现的原因是kernel mod 的 Nvidia driver 的版本没有更新,一般情况下,重启机器就能够解决,如果因为某些原因不能够重启的话,也有办法reload kernel mod。
 +
 +
sudo rmmod nvidia
 +
sudo nvidia-smi
 +
nvidia-smi 发现没有 kernel mod 会将其自动装载。
 +
 +
但是可能需要把相关模块卸载后才能做其它的事。
 +
 +
 +
$lsmod | grep nvidia
 +
nvidia_uvm            647168  0
 +
nvidia_drm            53248  0
 +
nvidia_modeset        790528  1 nvidia_drm
 +
nvidia              12144640  152 nvidia_modeset,nvidia_uvm            12144640  152 nvidia_modeset,nvidia_uvm
 +
 +
可以看到 nvidia 被使用了152词,我们可以先卸载 nvidia_uvm 和 nvidia_modeset
 +
 +
先查看下有哪些进程使用了 nvidia*
 +
 +
 +
sudo lsof -n -w  /dev/nvidia*
 +
这些进程有个了解,如果一会卸载失败,记得关闭相关进程。
 +
 +
卸载
 +
 +
sudo rmmod nvidia_uvm
 +
sudo rmmod nvidia_modeset
 +
sudo rmmod nvidia

2018年5月16日 (三) 01:08的最后版本

Some times when we tried to install cuda, it may install corresponding driver, than, accordingly, may cause mismatch between nvidia driver, cuda, and nvidia-smi management stuff.


https://comzyh.com/blog/archives/967/


这个问题出现的原因是kernel mod 的 Nvidia driver 的版本没有更新,一般情况下,重启机器就能够解决,如果因为某些原因不能够重启的话,也有办法reload kernel mod。

sudo rmmod nvidia sudo nvidia-smi nvidia-smi 发现没有 kernel mod 会将其自动装载。

但是可能需要把相关模块卸载后才能做其它的事。


$lsmod | grep nvidia nvidia_uvm 647168 0 nvidia_drm 53248 0 nvidia_modeset 790528 1 nvidia_drm nvidia 12144640 152 nvidia_modeset,nvidia_uvm 12144640 152 nvidia_modeset,nvidia_uvm

可以看到 nvidia 被使用了152词,我们可以先卸载 nvidia_uvm 和 nvidia_modeset

先查看下有哪些进程使用了 nvidia*


sudo lsof -n -w /dev/nvidia* 这些进程有个了解,如果一会卸载失败,记得关闭相关进程。

卸载

sudo rmmod nvidia_uvm sudo rmmod nvidia_modeset sudo rmmod nvidia