NVIDIA-SMI系列命令详解第十六篇-NVLINK

释放双眼,带上耳机,听听看~!
本文详细介绍了NVIDIA-SMI系列命令第十六篇-NVLINK,讲解了nvlink命令的各种参数和用法,以及NVLink的性能和规格。了解NVLink对于多GPU系统的性能提升和显存扩展的优势。

NVLINK

本文为NVIDIA-SMI系列命令详解第十六篇-NVLINK,介绍和演示了nvidia-smi 命令的 nvlink 选项及其附加参数,命令如下:

nvidia-smi nvlink

该命令用于展示系统的 nvlink 信息。

支持的参数列表如下:

    [-h | --help]: 展示帮助信息
    [-i | --id]: 枚举索引, PCI 总线 ID 或者 UUID.
    [-l | --link]: 将命令限制到特定链接。 如果没有此标志,将显示所有链接信息。
    [-s | --status]: 显示链接状态(活动/非活动)
    [-c | --capabilities]: 显示链接支持的功能。
    [-p | --pcibusid]: 显示链接的远程节点 PCI 总线 ID。
    [-R | --remotelinkinfo]: 显示链接的远程设备 PCI 总线 ID 和 NvLink ID。
    [-sc | --setcontrol]: 不推荐设置计数器控制!
    [-gc | --getcontrol]: 不推荐使用计数器控制!
    [-g | --getcounters]: 不推荐使用选项 -g 获取计数器。
                          请改用选项 -gt/--getthroughput。
    [-r | --resetcounters]: 不推荐重置计数器!
    [-e | --errorcounters]: 显示链接的错误计数器。
    [-ec | --crcerrorcounters]: 显示链路的每通道 CRC 错误计数器。
    [-re | --reseterrorcounters]: 将所有错误计数器重置为零。
    [-gt | --getthroughput]: 显示指定计数器类型的链路吞吐量计数器
                             参数由表示计数的流量类型的字符串组成:
                               d:以 KiB 显示 tx 和 rx 数据有效负载
                               r:如果支持,以 KiB 显示 tx 和 rx 数据有效负载和协议开销

NVLink介绍

NVLink是世界首项高速 GPU 互连技术,与传统的 PCIe 系统解决方案相比,能为多 GPU 系统提供更快速的替代方案。NVLink 技术通过连接两块 NVIDIA® 显卡,能够实现显存和性能扩展1,从而满足最大视觉计算工作负载的需求。

NVIDIA-SMI系列命令详解第十六篇-NVLINK

NVLink性能

NVIDIA-SMI系列命令详解第十六篇-NVLINK

NVLink规格

第二代 第三代 第四代
NVLink 总带宽 300GB/s 600GB/s 900GB/s
每个 GPU 最大链路数 6 12 18
NVIDIA 架构支持 NVIDIA Volta™ 架构 NVIDIA Ampere 架构 NVIDIA Hopper™ 架构

nvidia-smi nvlink各参数详解

-i 指定 GPU 的标识

GPU 设备的自然枚举序号,PCI 总线地址,或者UUID

运行示例

查看 0 号 GPU 的 UUID 值

nvidia-smi nvlink -i 0

NVIDIA-SMI系列命令详解第十六篇-NVLINK

可以看到 0 号 GPU 的驱逐状态是 不驱

-l 指定 link 序号,

将命令限制到特定链接。

注意:

如果没有此标志,将显示所有链接信息。

运行示例

修改 0 号 GPU 的 0 号 link 的链接状态

 nvidia-smi nvlink -i 0 -l 0 -s

NVIDIA-SMI系列命令详解第十六篇-NVLINK

可以看到, 0 号 GPU 的 0 号 link 的链接状态为 25 GB/s。

如果不指定 link 参数执行相同命令

nvidia-smi nvlink -i 0 -s

NVIDIA-SMI系列命令详解第十六篇-NVLINK

可以看到,不指定-l参数时,展示 0 ~ 11 号所有的 link 的状态信息。

-s 显示链接状态(活动/非活动)

显示链接状态(活动/非活动)。

运行示例

查询 1 号 GPU 的 link 状态

执行

nvidia-smi nvlink -i 1 -s

NVIDIA-SMI系列命令详解第十六篇-NVLINK

看到 1 号 GPU 的 0 ~ 11 号所有的 link 的状态信息均为 25 GB/s。

-c 显示 链接 支持的能力列表

显示链接支持的功能

运行示例

显示 0 号 GPU 设备的 1 号 link 支持的能力列表

执行

nvidia-smi nvlink -i 0 -l 1 -c

NVIDIA-SMI系列命令详解第十六篇-NVLINK

可以看到,0 号 GPU 的 1 号 link 支持的能力列表如下:

  • 支持P2P

  • 支持访问系统内存

  • 支持 P2P 原子能力

  • 支持系统内存原子能力

  • 支持 SLI

  • 不支持 Link

-p 显示链接的远程节点 PCI 总线 ID

显示链接的远程节点 PCI 总线 ID

运行示例

显示 0 号 GPU 的 0 号链接的远程节点 PCI 总线 ID

nvidia-smi nvlink -i 0 -l 0 -p

NVIDIA-SMI系列命令详解第十六篇-NVLINK

可以看到, 0 号 GPU 的 0 号链接的远程节点 PCI 总线 ID 为0000:6D:04.0。

再执行 lspci | grep -i 6D:04命令,可以看到该设备是NV Bridge。

-R 显示链接的远程设备 PCI 总线 ID 和 NvLink ID

显示链接的远程设备 PCI 总线 ID 和 NvLink ID

运行示例

显示 0 号 GPU 的 0 号链接的远程设备 PCI 总线 ID 和 NvLink ID

nvidia-smi nvlink -i 0 -l 0 -R

NVIDIA-SMI系列命令详解第十六篇-NVLINK

可以看到, 0 号 GPU 的 0 号链接的远程节点 PCI 总线 ID 为0000:6D:04.0,NvLink ID 为 34。

-sc 不推荐设置计数器控制

此功能已弃用,执行

nvidia-smi nvlink -sc 0

NVIDIA-SMI系列命令详解第十六篇-NVLINK

将返回警告,说明此功能已废弃。

-gc 不推荐使用计数器控制

此功能已弃用,执行

nvidia-smi nvlink -gc 0

NVIDIA-SMI系列命令详解第十六篇-NVLINK

将返回警告,说明此功能已废弃。

-g 不推荐使用选项 -g 获取计数器。

此功能已弃用,执行

nvidia-smi nvlink -g 0

NVIDIA-SMI系列命令详解第十六篇-NVLINK

将返回警告,说明此功能已废弃。

请使用 -gt 选项替代。

-r 不推荐重置计数器

此功能已弃用,执行

nvidia-smi nvlink -r 0

NVIDIA-SMI系列命令详解第十六篇-NVLINK

将返回警告,说明此功能已废弃。

-e 显示链接的错误计数器

显示链接的错误计数器

运行示例

显示 0 号 GPU 设备的 1 号 link 的错误计数器

执行

nvidia-smi nvlink -i 0 -l 1 -e

NVIDIA-SMI系列命令详解第十六篇-NVLINK

可以看到,0 号 GPU 的 1 号 link 错误计数器信息如下:

  • 0 重放错误

  • 0 恢复错误

  • 0 CRC错误

  • 通道0~3 CRC 错误计数器为 0 (溢出 0)

-ec 显示链路的每通道 CRC 错误计数器

显示链路的每通道 CRC 错误计数器

运行示例

显示 0 号 GPU 设备的 1 号 链路 的 每通道 CRC 错误计数器

执行

nvidia-smi nvlink -i 0 -l 1 -ec

NVIDIA-SMI系列命令详解第十六篇-NVLINK

可以看到,0 号 GPU 的 1 号 链路的 通道0~3 CRC 错误计数器为 0 (溢出 0)

-re 将所有错误计数器重置为零

将所有错误计数器重置为零

运行示例

显示 0 号 GPU 设备的 1 号 链路 的 所有错误计数器重置为零

执行

nvidia-smi nvlink -i 0 -l 1 -re

NVIDIA-SMI系列命令详解第十六篇-NVLINK

可以看到,0 号 GPU 的 1 号 链路的错误计数器已经重置为零

-gt 显示指定计数器类型的链路吞吐量计数器

显示指定计数器类型的链路吞吐量计数器
参数由表示计数的流量类型的字符串组成:

  • d:以 KiB 显示 tx 和 rx 数据有效负载

  • r:如果支持,以 KiB 显示 tx 和 rx 数据有效负载和协议开销

运行示例

显示 0 号 GPU 设备的所有 链路 的 吞吐量计数器的数据有效载荷

执行

nvidia-smi nvlink -i 0 -gt d

NVIDIA-SMI系列命令详解第十六篇-NVLINK

可以看到,0 号 GPU 的 0~11 号 链路 的

  • 发送 数据有效载荷均在 11378335576 KiB 左右

  • 接收 数据有效载荷均在 10397577348 KiB 左右

显示 0 号 GPU 设备的所有 链路 的 吞吐量计数器的 原始数据(包含有效载荷和协议开销)

执行

nvidia-smi nvlink -i 0 -gt r

NVIDIA-SMI系列命令详解第十六篇-NVLINK

可以看到,0 号 GPU 的 0~11 号 链路 的

  • 发送 数据有效载荷 + 协议开销 均在 20060529462 KiB 左右

  • 接收 数据有效载荷 + 协议开销 均在 20027235760 KiB 左右

-h 打印帮助信息

运行示例

展示 nvidia-smi nvlink 的帮助信息

nvidia-smi nvlink -h

NVIDIA-SMI系列命令详解第十六篇-NVLINK

对应内容如下:

nvidia-smi nvlink -h

    nvlink -- Display NvLink information.

    Usage: nvidia-smi nvlink [options]

    Options include:
    [-h | --help]: Display help information
    [-i | --id]: Enumeration index, PCI bus ID or UUID.

    [-l | --link]: Limit a command to a specific link.  Without this flag, all link information is displayed.
    [-s | --status]: Display link state (active/inactive).
    [-c | --capabilities]: Display link capabilities.
    [-p | --pcibusid]: Display remote node PCI bus ID for a link.
    [-R | --remotelinkinfo]: Display remote device PCI bus ID and NvLink ID for a link.
    [-sc | --setcontrol]: Setting counter control is deprecated!
    [-gc | --getcontrol]: Getting counter control is deprecated!
    [-g | --getcounters]: Getting counters using option -g is deprecated.
Please use option -gt/--getthroughput instead.
    [-r | --resetcounters]: Resetting counters is deprecated!
    [-e | --errorcounters]: Display error counters for a link.
    [-ec | --crcerrorcounters]: Display per-lane CRC error counters for a link.
    [-re | --reseterrorcounters]: Reset all error counters to zero.
    [-gt | --getthroughput]: Display link throughput counters for specified counter type
       The arguments consist of character string representing the type of traffic counted:
          d: Display tx and rx data payload in KiB
          r: Display tx and rx data payload and protocol overhead in KiB if supported
本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

基于深度学习的高精度动物检测识别系统

2023-11-29 12:14:14

AI教程

介绍中国大陆可使用的人工智能助手Claude及其优势对比

2023-11-29 12:25:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索