TensorFlow 是一个非常流行的深度学习框架,它能够适应各种模型的训练和预测需求。TensorFlow 支持GPU加速,使得该框架的性能大幅提升,特别是在处理大规模数据时。
步骤1:确认计算机是否具备GPU
首先,您需要确认自己的计算机是否具备GPU。使用以下命令可以轻松地验证:
lspci | grep -i nvidia
如果输出结果包含类似于以下内容的行,则表示您有一个NVIDIA GPU:
01:00.0 3D controller: NVIDIA Corporation GK210GL [Tesla K80] (rev a1)
另外,为了安装 CUDA 和 TensorFlow GPU 版本,请确保您的系统满足下列要求:
- GPU计算能力在3.5及以上。
- 确定您的操作系统与 CUDA 和 TensorFlow 支持的配置相兼容。检查 CUDA 和 TensorFlow GPU 版本之间的版本匹配性。
- 确保您已经任意安装 NVIDIA 显卡驱动程序。您可以从 NVIDIA 官方网站获取最新的显卡驱动程序。
步骤2:下载并安装 CUDA
接下来,您需要下载并安装 CUDA。您可以在 NVIDIA 官方网站了解到 CUDA 的最新版本以及它所支持的 GPU 型号和操作系统。
- 首先,打开以下网址 developer.nvidia.com/cuda-toolki… 从 NVIDIA 网站下载指定版本的 CUDA,手动下载在安装过程中可能会因为网络问题失败。
- 注意您所需要下载的是带有 .run 扩展名的文件。
CUDA 安装过程需要大约10分钟。注意,在安装 CUDA 之前,必须卸载先前版本的 CUDA 和 cuDNN 包。
在完成 CUDA 安装后,选择是否管理驱动程序。如果遇到任何错误,请参见安装日志啦解更多信息。
步骤3:配置环境变量
当您成功安装 CUDA 后,您需要添加所需的环境变量。这些环境变量表示 CUDA 安装路径和链接 CUDA 库的库路径。
打开终端,并编辑 ~/.bashrc 文件,将以下内容添加到文件末尾:
export PATH=/usr/local/cuda-11.6/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-11.6/lib64:$LD_LIBRARY_PATH
保存并关闭文件后,请运行以下命令使得环境变量生效:
source ~/.bashrc
步骤4:下载并安装 cuDNN 库
要使用 TensorFlow,您还需要安装 cuDNN 库。cuDNN 是纯 C++ 库,专门针对深度神经网络运行的库。
通过以下方式下载 cuDNN:
- 登录 NVIDIA 开发者账户,打开以下网址 developer.nvidia.com/cudnn 下载对应版本 cuDNN
- 在登陆后的页面中下载所需的 cuDNN 版本。
在下载完成后,将解压缩的文件夹复制到 CUDA 安装目录下,例如:
sudo cp -r /path/to/cudnn-11.6-linux-x64-v8.3.0.5/include/* /usr/local/cuda-11.6/include
sudo cp -r /path/to/cudnn-11.6-linux-x64-v8.3.0.5/lib64/* /usr/local/cuda-11.6/lib64
步骤5:安装 TensorFlow GPU 版本
现在,您已经准备好开始安装 TensorFlow GPU 版本了。
可以使用 Anaconda 或 pip 等软件包管理器来安装 TensorFlow。
如果您希望通过 pip 安装 TensorFlow。使用以下命令来安装:
pip install tensorflow-gpu==2.x # x表示TensorFlow的具体版本号,请根据自己的需求进行更改。
如果您使用 Anaconda,请运行以下命令并创建虚拟环境:
conda create -n your_env_name python=3.7 # 创建虚拟环境.
conda activate your_env_name # 激活环境
conda install tensorflow-gpu==2.4 # 安装tensorflow gpu 版本
默认情况下,安装了 TensorFlow-GPU 的计算机只会使用一个 GPU。要在多个 GPU 上执行代码,请按照下列步骤之一进行操作:
在 TensorFlow 代码中,使用 tf.distribute.MirroredStrategy() 将您的模型放在多个 GPU 上。
通过设置环境变量 CUDA_VISIBLE_DEVICES 来选择要用于计算的显卡。