意见箱
恒创运营部门将仔细参阅您的意见和建议,必要时将通过预留邮箱与您保持联络。感谢您的支持!
意见/建议
提交建议

怎么看gpu服务器的显卡信息

来源:恒创科技 编辑:恒创科技编辑部
2024-08-21 10:36:13

怎么看gpu服务器的显卡信息

查看GPU服务器的显卡信息通常使用NVIDIA提供的`nvidiasmi`命令(NVIDIA System Management Interface)。这个命令行工具能够显示关于NVIDIA GPU的多种信息,包括但不限于显卡型号、驱动版本、显存使用情况、GPU利用率、温度、功耗等。

以下是使用`nvidiasmi`查看显卡信息的步骤:

1. 登录服务器:首先,需要通过SSH或其他方式登录到GPU服务器。

2. 运行nvidiasmi命令:在服务器的命令行终端中输入以下命令:

   nvidiasmi

   执行此命令后,你将看到类似以下格式的输出信息:

   +-----------------------------------------------------------------------------+
   | NVIDIA-SMI 460.32.03    Driver Version: 460.32.03    CUDA Version: 11.2     |
   |-------------------------------+----------------------+----------------------+
   | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
   | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
   |                               |                      |               MIG M. |
   |===============================+======================+======================|
   |   0  Tesla V100-SXM2...  Off  | 00000000:00:1E.0 Off |                    0 |
   | N/A   35C    P0    57W / 300W |   10938MiB / 16160MiB |     88%      Default |
   |                               |                      |                  N/A |
   +-------------------------------+----------------------+----------------------+
   ...
   +-----------------------------------------------------------------------------+
   | Processes:                                                                  |
   |  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
   |        ID   ID                                                   Usage      |
   |=============================================================================|
   |    0     0     0      1234      C   python                           10938MiB |
   |    0     0     0      5678      C   tensorflow                        2048MiB |
   +-----------------------------------------------------------------------------+

3. 查看具体信息:输出中包含了以下信息:

    GPU Name:GPU型号名称。

    PersistenceM:GPU持久模式状态。

    BusId:GPU总线ID。

    Disp.A:显示设备状态(Off表示没有连接显示器)。

    Volatile Uncorr. ECC:易失性未更正的ECC错误计数。

    Fan, Temp, Perf, Pwr:风扇转速、温度、性能状态、功耗。

    MemoryUsage:显存使用情况。

    GPUUtil:GPU利用率。

    Compute M.:计算模式。

    MIG M.:多实例GPU状态(如果支持)。

    Processes:运行在GPU上的进程及其资源使用情况。

4. 定期监控:如果需要定期监控GPU状态,可以使用`watch`命令:

   watch n 1 nvidiasmi

   这将每秒更新一次GPU信息。

确保服务器上已安装了正确的NVIDIA驱动程序,`nvidiasmi`命令才能正常工作。如果没有安装驱动或驱动不兼容,该命令可能无法执行或返回错误信息。

上一篇: 1000并发需要的服务器配置 下一篇: 服务器监控中的自动化和脚本化任务有哪些实施方法?