MinerU 文档解析：VLM 引擎为什么这么吃资源

Sat, 04 Jul 2026 23:16:53 +0800

MinerU 是一款高精度文档解析工具，支持 PDF、图片、DOCX、PPTX、XLSX 等多种格式。

它有三种解析后端：pipeline、vlm-engine、hybrid-engine。其中 vlm-engine 精度最高，但资源消耗也最夸张——跑一次解析，23GB 系统内存 + 14GB 显存被占满，解析完还不释放。

这篇文章记录 vlm-engine 为什么这么吃资源、其他后端的工作原理、以及什么时候该用哪个。

Document-Parsing on OHTLY Blog