<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>Gemma on OHTLY Blog</title>
    <link>https://blog.ohtly.com/tags/gemma/</link>
    <description>Recent content in Gemma on OHTLY Blog</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <lastBuildDate>Fri, 19 Jun 2026 20:14:37 +0800</lastBuildDate>
    <atom:link href="https://blog.ohtly.com/tags/gemma/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>配置ollama本地模型翻译文言文</title>
      <link>https://blog.ohtly.com/posts/2026-06-19-%E9%85%8D%E7%BD%AEollama%E6%9C%AC%E5%9C%B0%E6%A8%A1%E5%9E%8B%E7%BF%BB%E8%AF%91%E6%96%87%E8%A8%80%E6%96%87/</link>
      <pubDate>Fri, 19 Jun 2026 20:14:37 +0800</pubDate>
      <guid>https://blog.ohtly.com/posts/2026-06-19-%E9%85%8D%E7%BD%AEollama%E6%9C%AC%E5%9C%B0%E6%A8%A1%E5%9E%8B%E7%BF%BB%E8%AF%91%E6%96%87%E8%A8%80%E6%96%87/</guid>
      <description>&lt;p&gt;用《杜骗新书》&amp;ldquo;假馬脫緞&amp;quot;一文测试本地 LLM 的文言文翻译能力，记录上下文配置和多模型对比过程。&lt;/p&gt;&#xA;&lt;h2 id=&#34;问题回答被截断&#34;&gt;&#xA;  问题：回答被截断&#xA;  &lt;a class=&#34;heading-link&#34; href=&#34;#%e9%97%ae%e9%a2%98%e5%9b%9e%e7%ad%94%e8%a2%ab%e6%88%aa%e6%96%ad&#34;&gt;&#xA;    &lt;i class=&#34;fa-solid fa-link&#34; aria-hidden=&#34;true&#34; title=&#34;链接到标题&#34;&gt;&lt;/i&gt;&#xA;    &lt;span class=&#34;sr-only&#34;&gt;链接到标题&lt;/span&gt;&#xA;  &lt;/a&gt;&#xA;&lt;/h2&gt;&#xA;&lt;p&gt;Ollama 默认 &lt;code&gt;num_ctx=2048&lt;/code&gt;，客户端设到 4096 仍然不够。日志：&lt;/p&gt;&#xA;&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;slot release: stop processing: n_tokens = 4095, truncated = 1&#xA;&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;prompt 占 ~1000 tokens，只剩 3000 给生成，翻译到一半就被截断。&lt;/p&gt;&#xA;&lt;h2 id=&#34;解法服务端定制模型&#34;&gt;&#xA;  解法：服务端定制模型&#xA;  &lt;a class=&#34;heading-link&#34; href=&#34;#%e8%a7%a3%e6%b3%95%e6%9c%8d%e5%8a%a1%e7%ab%af%e5%ae%9a%e5%88%b6%e6%a8%a1%e5%9e%8b&#34;&gt;&#xA;    &lt;i class=&#34;fa-solid fa-link&#34; aria-hidden=&#34;true&#34; title=&#34;链接到标题&#34;&gt;&lt;/i&gt;&#xA;    &lt;span class=&#34;sr-only&#34;&gt;链接到标题&lt;/span&gt;&#xA;  &lt;/a&gt;&#xA;&lt;/h2&gt;&#xA;&lt;p&gt;客户端不支持按模型调参时，在 Ollama 服务端创建定制模型即可：&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;echo &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;FROM gemma4:12b&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;PARAMETER num_ctx 16384&amp;#39;&lt;/span&gt; &amp;gt; gemma4-16k.Modelfile&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;ollama create gemma4:12b-16k -f gemma4-16k.Modelfile&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h2 id=&#34;16gb-显存各模型上下文上限&#34;&gt;&#xA;  16GB 显存各模型上下文上限&#xA;  &lt;a class=&#34;heading-link&#34; href=&#34;#16gb-%e6%98%be%e5%ad%98%e5%90%84%e6%a8%a1%e5%9e%8b%e4%b8%8a%e4%b8%8b%e6%96%87%e4%b8%8a%e9%99%90&#34;&gt;&#xA;    &lt;i class=&#34;fa-solid fa-link&#34; aria-hidden=&#34;true&#34; title=&#34;链接到标题&#34;&gt;&lt;/i&gt;&#xA;    &lt;span class=&#34;sr-only&#34;&gt;链接到标题&lt;/span&gt;&#xA;  &lt;/a&gt;&#xA;&lt;/h2&gt;&#xA;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;模型&lt;/th&gt;&#xA;          &lt;th&gt;模型大小&lt;/th&gt;&#xA;          &lt;th&gt;每 token KV cache&lt;/th&gt;&#xA;          &lt;th&gt;建议上下文&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;qwen3.5:9b&lt;/td&gt;&#xA;          &lt;td&gt;6.6 GB&lt;/td&gt;&#xA;          &lt;td&gt;~32 KB&lt;/td&gt;&#xA;          &lt;td&gt;128K&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;gpt-oss-abliterated:20b&lt;/td&gt;&#xA;          &lt;td&gt;13 GB&lt;/td&gt;&#xA;          &lt;td&gt;~34 KB&lt;/td&gt;&#xA;          &lt;td&gt;64K&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;gemma4:12b&lt;/td&gt;&#xA;          &lt;td&gt;7.4 GB&lt;/td&gt;&#xA;          &lt;td&gt;~448 KB&lt;/td&gt;&#xA;          &lt;td&gt;16K&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;p&gt;Gemma4 的 KV 投影维度 512 per head，48 层中 40 层为 8 KV heads，导致 KV cache 开销远大于前两者。但滑动窗口层（8 层 1 KV head）用环形缓冲区节省了空间。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
