Rerank on OHTLY Blog

开发环境 Rerank 配置：llama-server + BGE Reranker

Fri, 26 Jun 2026 18:44:33 +0800

背景链接到标题

RAG 流水线中，embedding 检索召回 top-K 后，需要 rerank 做二次排序提升精度。开发环境希望方案足够轻量——不需要高性能，但模型不使用时最好不占显存。

Ollama 在 v0.30 换回了 llama.cpp 引擎（此前 fork ggml 自研引擎一年多，性能落后 30-70%，社区压力下切回），体验上很方便，但 /api/rerank 端点至今未实现。

相关 issue 和 PR：

Reranking models · Issue #3368 — 2024 年 3 月提出，至今 open
FEAT: add rerank support · PR #7219 — 最早尝试，未合并
Add reranking support · PR #11156 — 被拒绝，理由是当时已不再给旧引擎加功能
Complete Production-Ready Reranking · PR #11389 — 最完整的一次实现，修复了分数提取 bug，社区验证通过，但因含 AI 生成文件被要求清理，最终也未合并

方案：直接用 llama-server 链接到标题

llama.cpp 自带的 llama-server 原生支持 --reranking 和 --pooling rank，开箱即用。