<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>Rerank on OHTLY Blog</title>
    <link>https://blog.ohtly.com/tags/rerank/</link>
    <description>Recent content in Rerank on OHTLY Blog</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <lastBuildDate>Fri, 26 Jun 2026 18:44:33 +0800</lastBuildDate>
    <atom:link href="https://blog.ohtly.com/tags/rerank/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>开发环境 Rerank 配置：llama-server &#43; BGE Reranker</title>
      <link>https://blog.ohtly.com/posts/2026-06-26-rerank-with-llama-server/</link>
      <pubDate>Fri, 26 Jun 2026 18:44:33 +0800</pubDate>
      <guid>https://blog.ohtly.com/posts/2026-06-26-rerank-with-llama-server/</guid>
      <description>&lt;h2 id=&#34;背景&#34;&gt;&#xA;  背景&#xA;  &lt;a class=&#34;heading-link&#34; href=&#34;#%e8%83%8c%e6%99%af&#34;&gt;&#xA;    &lt;i class=&#34;fa-solid fa-link&#34; aria-hidden=&#34;true&#34; title=&#34;链接到标题&#34;&gt;&lt;/i&gt;&#xA;    &lt;span class=&#34;sr-only&#34;&gt;链接到标题&lt;/span&gt;&#xA;  &lt;/a&gt;&#xA;&lt;/h2&gt;&#xA;&lt;p&gt;RAG 流水线中，embedding 检索召回 top-K 后，需要 rerank 做二次排序提升精度。&#xA;开发环境希望方案足够轻量——不需要高性能，但模型不使用时最好不占显存。&lt;/p&gt;&#xA;&lt;p&gt;Ollama 在 v0.30 换回了 llama.cpp 引擎（此前 fork ggml 自研引擎一年多，性能落后 30-70%，社区压力下切回），体验上很方便，但 &lt;strong&gt;&lt;code&gt;/api/rerank&lt;/code&gt; 端点至今未实现&lt;/strong&gt;。&lt;/p&gt;&#xA;&lt;p&gt;相关 issue 和 PR：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;a href=&#34;https://github.com/ollama/ollama/issues/3368&#34;  class=&#34;external-link&#34; target=&#34;_blank&#34; rel=&#34;noopener&#34;&gt;Reranking models · Issue #3368&lt;/a&gt; — 2024 年 3 月提出，至今 open&lt;/li&gt;&#xA;&lt;li&gt;&lt;a href=&#34;https://github.com/ollama/ollama/pull/7219&#34;  class=&#34;external-link&#34; target=&#34;_blank&#34; rel=&#34;noopener&#34;&gt;FEAT: add rerank support · PR #7219&lt;/a&gt; — 最早尝试，未合并&lt;/li&gt;&#xA;&lt;li&gt;&lt;a href=&#34;https://github.com/ollama/ollama/pull/11156&#34;  class=&#34;external-link&#34; target=&#34;_blank&#34; rel=&#34;noopener&#34;&gt;Add reranking support · PR #11156&lt;/a&gt; — 被拒绝，理由是当时已不再给旧引擎加功能&lt;/li&gt;&#xA;&lt;li&gt;&lt;a href=&#34;https://github.com/ollama/ollama/pull/11389&#34;  class=&#34;external-link&#34; target=&#34;_blank&#34; rel=&#34;noopener&#34;&gt;Complete Production-Ready Reranking · PR #11389&lt;/a&gt; — 最完整的一次实现，修复了分数提取 bug，社区验证通过，但因含 AI 生成文件被要求清理，最终也未合并&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;方案直接用-llama-server&#34;&gt;&#xA;  方案：直接用 llama-server&#xA;  &lt;a class=&#34;heading-link&#34; href=&#34;#%e6%96%b9%e6%a1%88%e7%9b%b4%e6%8e%a5%e7%94%a8-llama-server&#34;&gt;&#xA;    &lt;i class=&#34;fa-solid fa-link&#34; aria-hidden=&#34;true&#34; title=&#34;链接到标题&#34;&gt;&lt;/i&gt;&#xA;    &lt;span class=&#34;sr-only&#34;&gt;链接到标题&lt;/span&gt;&#xA;  &lt;/a&gt;&#xA;&lt;/h2&gt;&#xA;&lt;p&gt;llama.cpp 自带的 &lt;code&gt;llama-server&lt;/code&gt; 原生支持 &lt;code&gt;--reranking&lt;/code&gt; 和 &lt;code&gt;--pooling rank&lt;/code&gt;，开箱即用。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
