How to solve the mistmatch between nvidia-smi and driver

来自cslt Wiki
跳转至: 导航搜索

Some times when we tried to install cuda, it may install corresponding driver, than, accordingly, may cause mismatch between nvidia driver, cuda, and nvidia-smi management stuff.


https://comzyh.com/blog/archives/967/


这个问题出现的原因是kernel mod 的 Nvidia driver 的版本没有更新,一般情况下,重启机器就能够解决,如果因为某些原因不能够重启的话,也有办法reload kernel mod。

sudo rmmod nvidia sudo nvidia-smi nvidia-smi 发现没有 kernel mod 会将其自动装载。

但是可能需要把相关模块卸载后才能做其它的事。


$lsmod | grep nvidia nvidia_uvm 647168 0 nvidia_drm 53248 0 nvidia_modeset 790528 1 nvidia_drm nvidia 12144640 152 nvidia_modeset,nvidia_uvm 12144640 152 nvidia_modeset,nvidia_uvm

可以看到 nvidia 被使用了152词,我们可以先卸载 nvidia_uvm 和 nvidia_modeset

先查看下有哪些进程使用了 nvidia*


sudo lsof -n -w /dev/nvidia* 这些进程有个了解,如果一会卸载失败,记得关闭相关进程。

卸载

sudo rmmod nvidia_uvm sudo rmmod nvidia_modeset sudo rmmod nvidia