NVIDIA-SMI系列命令详解:设备监控(1)

释放双眼,带上耳机,听听看~!
本篇文章详细介绍了NVIDIA-SMI命令中的设备监控选项,包括命令参数的使用方法和支持的统计信息字段。适用于对NVIDIA GPU设备进行监控和统计分析的用户。

设备监控(Device Monitoring)

本文为NVIDIA-SMI系列命令详解第十二篇-设备监控(1),介绍和演示了nvidia-smi 命令的设备监控选项dmon参数,介绍了如下命令:

nvidia-smi dmon

nvidia-smi dmon 滚动格式展示设备统计信息

GPU 统计数据以滚动格式显示,每个采样间隔一行。 可以根据终端窗口的宽度调整要监控的指标。 监控仅限于最多 4 台设备。 如果未指定设备,则自然枚举下最多支持的前 4 个设备(从 GPU 索引 0 开始)用于监控目的。

设备监控选项,支持的参数列表如下:

    [-i | --id]:         驱动程序返回的自然枚举中 GPU 的从 0 开始的索引、
                         GPU 的板序列号、GPU 的 UUID 或 GPU 的 PCI 总线 ID. 
                         如果需要指定多个设备,可以使用逗号","将不同的id隔开。
    [-d | --delay]:      采样的时间间隔,单位:秒 [默认:1秒]
    [-c | --count]:      运行特定次数的采样,然后退出。
    [-s | --select]:     展示一个或者多个采样项 [默认:puc]
                         支持的采样项如下:
                              p - 功率和温度
                              u - GPU 利用率
                              c - 处理器时钟频率和内存时钟频率
                              v - 功率上限违规和热上限违规
                              m - FB 和 Bar1 内存
                              e - ECC 错误和 PCIe 重放错误
                              t - PCIe Rx 吞吐量和 Tx 吞吐量
    [-o | --options]:    支持一个或者多个如下值:
                              D - 在滚动输出中包含日期 (YYYYMMDD)
                              T - 在滚动输出中包含时间 (HH:MM:SS)
    [-f | --filename]:   输出日志到特定的文件。
    [-h | --help]:       展示帮助信息

注意:

命令行在循环模式下工作,直到按下 Ctrl+C。

支持 x64 和 ppc64 架构的裸机 Linux 下新的 GPU 。

支持 Tesla、GRID、Quadro 系列产品。

支持 Kepler 系列中部分 GeForce 产品。

实验功能。

统计输出信息各字段解释

统计信息以如下CSV格式输出

#Date       Time        gpu   pwr gtemp mtemp    sm   mem   enc   dec  mclk  pclk pviol tviol    fb  bar1 sbecc dbecc   pci rxpci txpci
#YYYYMMDD   HH:MM:SS    Idx     W     C     C     %     %     %     %   MHz   MHz     %  bool    MB    MB  errs  errs  errs  MB/s  MB/s
 20220803   11:52:16      0    59    28    45     0     0     0     0  1593  1155     0     0     0     1     0     0     0     0     0

对应解释如下表所示:

采样项 含义 单位 示例
Date 日期 YYYYMMDD 20220803
Time 时间 HH:MM:SS 11:52:16
gpu GPU id Idx 0
pwr GPU 功率 W 59
gtemp GPU 温度 C 28
mtemp 内存温度 C 45
sm SM 流式多处理器利用率 % 0
mem 内存利用率 % 0
enc 视频编码使用率 % 0
dec 视频解码使用率 % 0
mclk 内存时钟频率 MHz 1593
pclk 处理器时钟频率 MHz 1155
pviol 功率上限违规 % 0
tviol 热上限违规 bool 0
fb 板载帧缓冲内存信息 MB 0
bar1 fb内存映射信息 MB 1
sbecc 单位ecc错误数 errs 0
dbecc 双位ecc错误数 errs 0
pci pci错误数 errs 0
rxpci pci设备接收数据速率 MB/s 0
txpci pci设备发送数据速率 MB/s 0

各参数详解

-i 指定GPU

id是驱动程序返回的自然枚举中 GPU 的从 0 开始的索引、GPU 的板序列号、GPU 的 UUID 或 GPU 的 PCI 总线 ID。 如果需要指定多个设备,可以使用逗号”,”将不同的id隔开。

运行示例

查看设备id为0的设备统计信息 运行示例:

nvidia-smi dmon -i 0

NVIDIA-SMI系列命令详解:设备监控(1)

可以看到,需要 Ctrl + C 才能打断,否则会一直采样。

GPU Index 为 0 的卡 功率 59W。GPU温度 28度,显存温度45度,sm 流式多处理器 利用率 0%。 显存利用率 0%。编码率 0%,解码率 0%。 内存时钟 1593 MHz, 处理器时钟 1155 MHz。

-d 指定采样时间间隔(默认1秒)

指定采样时间间隔,默认1秒采样一次。

运行示例

设置采样时间间隔为5秒

nvidia-smi dmon -i 0 -d 5 -o T

NVIDIA-SMI系列命令详解:设备监控(1)

可以看到,采样时间间隔变为5秒一次。

-c 执行指定次数监控循环后退出

运行示例

展示设备为0的GPU的 temp、pwrDraw 信息 5 次之后退出

nvidia-smi dmon -i 0 -c 5 -o T

NVIDIA-SMI系列命令详解:设备监控(1)

可以看到,加上-c 5参数之后,运行5次采样后程序退出,不会像之前的命令需要执行 Ctrl + C 后才能退出。

-s 展示特定的采样项(默认值puc)

支持的采样项:

  • p – 功率和温度

  • u – GPU 利用率

  • c – 处理器时钟频率和内存时钟频率

  • v – 功率上限违规和热上限违规

  • m – FB 和 Bar1 内存

  • e – ECC 错误和 PCIe 重放错误

  • t – PCIe Rx 吞吐量和 Tx 吞吐量

  • 运行示例

展示设备为0的GPU的 所有 支持 的 信息

nvidia-smi dmon -i 0 -c 5 -s pucvmet

NVIDIA-SMI系列命令详解:设备监控(1)

可以看到,展示了所有的支持的采样项。

-o 输出日期和时间选项

在查询结果中输出时间和日期选项:

  • D – 在滚动输出中包含日期 (YYYYMMDD)

  • T – 在滚动输出中包含时间 (HH:MM:SS)

运行示例

输出滚动信息时展示时间和日期

nvidia-smi dmon -i 0 -c 5 -o DT

NVIDIA-SMI系列命令详解:设备监控(1)

-f 将查询输出重定向到指定文件以代替默认标准输出

将查询输出重定向到指定文件以代替默认标准输出。指定的文件将被覆盖。

运行示例

设备id为0的GPU统计信息输出到文件out.log中

nvidia-smi dmon -i 0 -f out.log

NVIDIA-SMI系列命令详解:设备监控(1)

可以看到,必须按住 Ctrl + C 才能终止命令,否则命令会一直执行。

out.log文件中的内容与控制台输出的一致。

-h 打印帮助信息

运行示例

展示nvidia-smi stats的帮助信息

nvidia-smi dmon -h

NVIDIA-SMI系列命令详解:设备监控(1)

对应内容如下:

root@YellowMeta-A100:~# nvidia-smi dmon -h

    GPU statistics are displayed in scrolling format with one line
    per sampling interval. Metrics to be monitored can be adjusted
    based on the width of terminal window. Monitoring is limited to
    a maximum of 4 devices. If no devices are specified, then up to
    first 4 supported devices under natural enumeration (starting
    with GPU index 0) are used for monitoring purpose.
    It is supported on Tesla, GRID, Quadro and limited GeForce products
    for Kepler or newer GPUs under x64 and ppc64 bare metal Linux.

    Usage: nvidia-smi dmon [options]

    Options include:
    [-i | --id]:          Comma separated Enumeration index, PCI bus ID or UUID
    [-d | --delay]:       Collection delay/interval in seconds [default=1sec]
    [-c | --count]:       Collect specified number of samples and exit
    [-s | --select]:      One or more metrics [default=puc]
                          Can be any of the following:
                              p - Power Usage and Temperature
                              u - Utilization
                              c - Proc and Mem Clocks
                              v - Power and Thermal Violations
                              m - FB and Bar1 Memory
                              e - ECC Errors and PCIe Replay errors
                              t - PCIe Rx and Tx Throughput
    [-o | --options]:     One or more from the following:
                              D - Include Date (YYYYMMDD) in scrolling output
                              T - Include Time (HH:MM:SS) in scrolling output
    [-f | --filename]:    Log to a specified file, rather than to stdout
    [-h | --help]:        Display help information
本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

倒排召回新发展:可学习的稀疏表征

2023-12-19 19:49:14

AI教程

工业检测界的颜色识别与物体计数

2023-12-19 20:07:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索