背景
随着ai的大兴,和狂潮的结束,各种显卡都出来了。尤其是一些大显存的卡,像什么nvidia tesla p4 8G、 nvidia tesla P40 24G、nvidia tesla P100 16G 之类的纯计算卡,支持vgpu,可以一卡分配给多个系统使用。这里 博主自己搞了块p4的半高刀卡显卡插到了我的超微x11sri-if上使用。
先要卸载官方原版的n卡驱动
apt remove nvidia-alternative
apt-get autoremove
安装grid的guest driver(宿主驱动在esxi上安装,这里就不说了)
# 这里选择了 15.2 的最新驱动 NVIDIA-Linux-x86_64-525.105.17-grid.run
chmod +x NVIDIA-Linux-x86_64-525.105.17-grid.run
./NVIDIA-Linux-x86_64-525.105.17-grid.run
# 如果想要卸载,使用 nvidia-uninstall 命令
禁用nouveau驱动
vi /etc/modprobe.d/blacklist-nouveau.conf
#添加
blacklist nouveau
options nouveau modeset=0
添加license 并重启
(这里就不细说了,见来自民间的 nvidia的 vgpu 授权服务 fastapi-dls)
配置完license后,记得重启系统。
系统中的nvidia-docker已经默认安装,可以直接测试安装结果
sudo docker run --rm --gpus all nvidia/cuda:12.0.1-base-ubuntu22.04 nvidia-smi