GPU 自动巡检与自愈：从掉卡到飞书通知的自动化链路

Tue, 05 May 2026 22:30:00 +0800

GPU 在虚拟化直通（Passthrough）环境下运行时，偶尔会出现驱动丢失、NVML 报错等问题，导致容器内无法使用 GPU。本文介绍一个轻量级的自动巡检自愈方案，从检测到修复再到飞书通知，全自动闭环。

问题背景链接到标题

在 PVE 虚拟机中通过 PCIe Passthrough 直通 NVIDIA GPU 时，容器内偶尔会出现：

Failed to initialize NVML: Unknown Error

重启容器后可短暂恢复，但一段时间后再次失效。这类问题在虚拟化环境中难以彻底根治（涉及 ASPM 电源管理、驱动状态等问题），需要一个主动巡检 + 自动修复的兜底机制。

graph LR GC[gpu-checker
每 60s 巡检] -->|docker exec nvidia-smi| OS[GPU 应用容器] GC -->|异常| A[自动修复] A -->|1.告警| AT[alert-transformer] A -->|2.重启| OS A -->|3.重检| B{恢复?} B -->|是| AT B -->|否| C[人工介入] AT -->|hooks| OC[OpenClaw] OC -->|飞书机器人| FS[飞书通知]

部署 gpu-checker 链接到标题

巡检容器是一个独立的 Docker 容器，使用 docker:cli 镜像，通过挂载 docker.sock 来操作宿主机上的其他容器：

使用 DCGM-Exporter 实现 GPU 智能告警

Tue, 05 May 2026 21:53:58 +0800

GPU 是生产环境中重要的计算资源，温度过高、显存泄漏、硬件故障等问题如果不及时发现，可能影响线上服务。本文记录一套完整的 GPU 监控告警方案，从指标采集到飞书推送的全自动链路。

监控目标链接到标题

维度	指标	告警阈值
温度	GPU 核心温度 / 显存温度	> 83°C / > 100°C
显存	VRAM 使用率	> 90%
功耗	GPU 功率	> 150W
硬件健康	PCIe 重连、行重映射错误	任何异常
可用性	DCGM-Exporter 进程是否存活	宕机 1m

架构总览链接到标题

部署 DCGM-Exporter 链接到标题

在 GPU 节点上通过 Docker 部署 DCGM-Exporter。使用 DaoCloud 镜像加速国内拉取：

GPU on OHTLY Blog

GPU 自动巡检与自愈：从掉卡到飞书通知的自动化链路

问题背景 链接到标题

架构总览 链接到标题

部署 gpu-checker 链接到标题

使用 DCGM-Exporter 实现 GPU 智能告警

监控目标 链接到标题

架构总览 链接到标题

部署 DCGM-Exporter 链接到标题

问题背景链接到标题

架构总览链接到标题

监控目标链接到标题

架构总览链接到标题