Ubuntu上如何安装CUDA

168次阅读

没有评论

共计 6025 个字符，预计需要花费 16 分钟才能阅读完成。

本篇内容介绍了“Ubuntu 上如何安装 CUDA”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让丸趣 TV 小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！

安装过程：

一、安装、熟悉 ubuntu16.04 系统

安装软件之前最好对 ubuntu 的命令行有一些基本的了解，像 sudo、cd、ls、nona、cat、chmod 等等，这样能够在安装过程中省去很多不必要的麻烦。

二、检查自己的电脑环境是否具备安装 cuda 的条件

1) 验证自己的电脑是否有一个可以支持 cuda 的 gpu

你可以电脑的配置信息中找到显卡的具体型号，如果你是双系统，在 windows 下的设备管理器中也可以查到显卡的详细信息；
你也可以在 ubuntu 的终端中输入命令：$ lspci | grep -i nvidia，会显示出你的 nvidia gpu 版本信息，不过不是很详细。

我的显示为（geforcegt630m）：

01:00.0 3d controller: nvidia corporation gf117m [geforce 610m/710m/810m/820m / gt 620m/625m/630m/720m] (rev a1)

然后去 cuda 的查看自己的 gpu 版本是否在 cuda 的支持列表中。

2) 验证自己的 linux 版本是否支持 cuda(ubuntu 16.04 没问题)

输入命令：

$ uname -m   cat /etc/*release

结果显示：

x86_64
distrib_id=ubuntu
distrib_release=16.04

……

3) 验证系统是否安装了 gcc

在终端中输入：$ gcc –version

结果显示：

gcc (ubuntu 5.4.0-6ubuntu1~16.04.5) 5.4.0 20160609
……

若未安装请使用下列命令进行安装：

sudo apt-get install build-essential

4) 验证系统是否安装了 kernel header 和 package development

a、查看正在运行的系统内核版本：

在终端中输入：$ uname –r

结果显示：

4.10.0-40-generic

b、在终端中输入：$ sudo apt-get install linux-headers-$(uname -r)

可以安装对应 kernel 版本的 kernel header 和 package development

结果显示：

……

升级了 0 个软件包，新安装了 0 个软件包，要卸载 0 个软件包，有 4 个软件包未被升级。

表示系统里已经有了，不用重复安装。

若以上各项验证检查均满足要求，便可进行下面的正式安装过程。如果没有满足要求的话，可以参考 cuda 的官方文档，里面有详细的针对每个问题的解决方案。

三、选择安装方式

cuda 提供两种安装方式：package manager 安装和 runfile 安装，package manager 安装方式相对简单一些，但是我在阅读别人博客的过程中发现选择这种方式在安装过程中问题可能多一点，失败的概率较大。为了减少不必要的麻烦我选择 runfile 安装方式。
下载 cuda 安装包：cuda 官网下载，根据系统信息选择对应的版本，runfile 安装的话最后一项要选择 runfile 文件。

下载完后，用 md5 检验，如果序号不和，得重新下载（由于当时没有保存，这里我采用了别人的截图，注意这里的 cuda 版本号，人家采用的 cuda_8.0）

输入命令：$ md5sum cuda_9.0.176_linux.run

四、runfile 安装 cuda

1) 禁用 nouveau 驱动

终端中运行：$ lsmod | grep nouveau，如果有输出则代表 nouveau 正在加载。需要我们手动禁掉 nouveau。

ubuntu 的 nouveau 禁用方法：

a、在 /etc/modprobe.d 中创建文件 blacklist-nouveau.conf

输入命令：$ sudo vi /etc/modprobe.d/blacklist-nouveau.conf （利用 vi 编辑器编辑和保存文件）

在文件中输入一下内容：

blacklist nouveau
options nouveau modeset=0

b、执行：

$ sudo update-initramfs –u

c、再执行：

$ lsmod | grep nouveau

若无内容输出，则禁用成功，若仍有内容输出，请检查操作，并重复上述操作。

注：vi 是 linux 终端下或控制台下常用的编辑器，基本的操作方式为：vi / 路径 / 文件名
例如：vi /etc/fstab 表示显示 /etc/fstab 文件的内容。使用键盘上的 page up 和 page down 键可以上下翻页；按下 insert 键，可以见到窗口左下角有“insert”字样，表示当前为插入编辑状态，这时从键盘输入的内容将插入到光标位置；再按下 insert 键，左下角将有“replace”字样，表示当前为替换编辑状态，这时从键盘输入的内容将替换光标位置的内容。编辑完内容后，按下 esc 键，并输入“:wq”，然后回车就可以保存退出。
如果不想保存而直接退出，则按下 esc 键后，输入“:q!”，然后回车即可。“wq”表示 write 和 quit，即保存退出；“q!”表示忽略修改强行退出。

以下操作建议手机拍照，建议把下载的 cuda_9.0.176_384.81_linux.run 文件重命名为 cuda.run 并移动到 home 文件夹下（为了安装方便）

2) 重启电脑，进入登录界面的时候，不要登录进入桌面(否则可能会失败，若不小心进入，请重启电脑)，直接按 ctrl+alt+f1 进入文本模式（命令行界面），登录账户。

3) 输入 $ sudo service lightdm stop 关闭图形化界面

4) 切换到 cuda 安装文件的路径：$ cd home/

运行 $ sudo sh cuda_7.5.18_linux.run
按照提示一步步操作

注：a、一定要按照提示)输入相应字符，例如有的需要输入 accept，有的需要输入 yes；

b、遇到提示是否安装 opengl，选择 no（如果你的电脑跟我一样是双显，且主显是非 nvidia 的 gpu 在工作需要选择 no，否则可以 yes），其他都选择 yes 或者默认即可。（如果您的电脑是双显卡且在这一步选择了 yes，那么你极有可能安装完 cuda 之后，重启图形化界面后遇到登录界面循环问题：输入密码后又跳回密码输入界面。

这是因为你的电脑是双显，而且用来显示的那块 gpu 不是 nvidia，则 opengl libraries 就不应该安装，否则你正在使用的那块 gpu（非 nvidia 的 gpu）的 opengl libraries 会被覆盖，然后 gui 就无法工作了。）

安装成功后，会显示 installed，否则会显示 failed。

5) 输入 $ sudo service lightdm start 重新启动图形化界面。

同时按住 alt + ctrl +f7，返回到图形化登录界面，输入密码登录。
如果能够成功登录，则表示不会遇到循环登录的问题，基本说明 cuda 的安装成功了。

如果你遇到了重复登陆情况，不用急着重装系统，官方教程上有提及，原因上一步的注中有提及，在安装 opengl 时你可能不注意选择了 yes，请卸载 cuda, 然后重装。
卸载：由于登陆进入不到图形用户界面（gui），但我们可以进入到文本用户界面(tui)

在登陆界面状态下，按 ctrl + alt + f1, 进入 tui
执行

$ sudo /usr/local/cuda-8.0/bin/uninstall_cuda_8.0.pl
$ sudo /usr/bin/nvidia-uninstall

然后重启

$ sudo reboot

重新安装.run 再次安装时请一定留意，在提示是否安装 opengl 时，你的是双显卡应该选则 n。

6) 重启电脑，检查 device node verification。

执行

$ ls /dev/nvidia*

可能出现 a、b 两种结果，请对号入座。

a、若结果显示

/dev/nvidia0 /dev/nvidiactl /dev/nvidia-uvm

或显示出类似的信息，应该有三个（包含一个类似 /dev/nvidia-nvm 的），则安装成功。

b、大多数结果可能会是这样

ls: cannot access/dev/nvidia*: no such file or directory

或是这样的，只出现

/dev/nvidia0 /dev/nvidiactl

a 中的一个或两个，但没有 /dev/nvidia-num，即文件显示不全。

不用着急也不用急着重装系统（我在安装时就是这种情况），官方指导中有详细的解决方案，但是我的方法和官方稍微有些出入。

首先要添加一个启动脚本（添加启动脚本的方法大致有两种，我采用最直接的方法，另一种可以先创建一个文件然后通过 mv 的方式移动到启动文件夹下，可自行百度）
执行

$ sudo vi /etc/rc.local

如果你是第一次打开这个文件，它应该是空的(除了一行又一行的 #注释项外)。这文件的第一行是

#!/bin/sh -e

把 - e 去掉（这步很重要，否则它不会加载这文本的内容）
然后把下列内容除了 #!/bin/bash 外复制到其中，(before exit 0)保存退出。

#!/bin/bash
/sbin/modprobe nvidia
if [  $?  -eq 0 ]; then
# count the number of nvidia controllers found.
nvdevs=`lspci | grep -i nvidia`
n3d=`echo  $nvdevs  | grep  3d controller  | wc -l`
nvga=`echo  $nvdevs  | grep  vga compatible controller  | wc -l`
n=`expr $n3d + $nvga - 1`
for i in `seq 0 $n`; do
mknod -m 666 /dev/nvidia$i c 195 $i
mknod -m 666 /dev/nvidiactl c 195 255
exit 1
/sbin/modprobe nvidia-uvm
if [  $?  -eq 0 ]; then
# find out the major device number used by the nvidia-uvm driver
d=`grep nvidia-uvm /proc/devices | awk  {print $1} `
mknod -m 666 /dev/nvidia-uvm c $d 0
exit 1
fi

下次重启时，你应该能直接看到 /dev 目录下的三个 nvidia 的文件
输入：$ ls /dev/nvidia*
结果显示：/dev/nvidia0 /dev/nvidiactl /dev/nvidia-uvm

成功！

7) 设置环境变量。

终端中输入 $ sudo gedit /etc/profile
在打开的文件末尾，添加以下两行。

64 位系统：

export path=/usr/local/cuda-9.0/bin${path:+:${path}}
export ld_library_path=/usr/local/cuda-9.0/lib64\
 ${ld_library_path:+:${ld_library_path}}

32 位系统：

export path=/usr/local/cuda-9.0/bin${path:+:${path}}
export ld_library_path=/usr/local/cuda-9.0/lib\
 ${ld_library_path:+:${ld_library_path}}

保存文件，并重启。因为 source /etc/profile 是临时生效，重启电脑才是永久生效。

这里有点与官方安装文档稍有不同，需要说明：
官方文档里说只需在终端中运行上述两条 export 语句即可，但如果不将它们不写入 /etc/profile 文件的话，这样的环境变量在你退出终端后就消失了，不起作用了，所以写入才是永久的做法。

8) 重启电脑，检查上述的环境变量是否设置成功。

a、验证驱动版本

敲入

$ cat /proc/driver/nvidia/version

结果显示

nvrm version: nvidia unix x86_64 kernel module 384.81 sat sep 2 02:43:11 pdt 2017
gcc version: gcc version 5.4.0 20160609 (ubuntu 5.4.0-6ubuntu1~16.04.5)

b、验证 cuda toolkit

敲入

$ nvcc -v 会输出 cuda 的版本信息

如果是这样的：

the program nvcc is currently not installed. you can install it by typing:
sudo apt-get install nvidia-cuda-toolkit

可能是环境配置没有成功，请重复上述步骤 7）。

五、尝试编译 cuda 提供的例子

1）打开终端输入：$ cd /home/xxx/nvidia_cuda-9.0_samples 其中 xxx 是你自己的用户名，通过命令 cd 进入 nvidia_cuda-9.0_samples 目录。

然后终端输入：$ make

系统就会自动进入到编译过程，整个过程大概需要十几到二十分钟，请耐心等待。如果出现错误的话，系统会立即报错停止。

第一次运行时可能会报错，提示的错误信息可能会是系统中没有 gcc，

解决办法就是通过命令重新安装 gcc 就行，在终端输入：$ sudo apt-get install gcc 安装完 gcc 后，再 make 就正常了。

如果编译成功，最后会显示 finished building cuda samples，如下图所示。

2）运行编译生成的二进制文件。
编译后的二进制文件默认存放在 nvidia_cuda-9.0_samples/bin 中。
接着在上一个终端中输入：$ cd /home/lxxx/nvidia_cuda-9.0_samples/bin/x86_64/linux/release 其中 xxx 是你自己的用户名
然后在终端输入：$ ./devicequery

结果如下图所示：看到类似如下图片中的显示，则代表 cuda 安装且配置成功，其中 result = pass 代表成功, 若失败 result = fail

3）最后再检查一下系统和 cuda-capable device 的连接情况
终端输入：$ ./bandwidthtest
看到类似如下图片中的显示，则代表成功

“Ubuntu 上如何安装 CUDA”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识可以关注丸趣 TV 网站，丸趣 TV 小编将为大家输出更多高质量的实用文章！

正文完