配置ollama本地模型翻译文言文

Fri, 19 Jun 2026 20:14:37 +0800

用《杜骗新书》“假馬脫緞"一文测试本地 LLM 的文言文翻译能力，记录上下文配置和多模型对比过程。

问题：回答被截断链接到标题

Ollama 默认 num_ctx=2048，客户端设到 4096 仍然不够。日志：

slot release: stop processing: n_tokens = 4095, truncated = 1

prompt 占 ~1000 tokens，只剩 3000 给生成，翻译到一半就被截断。

客户端不支持按模型调参时，在 Ollama 服务端创建定制模型即可：

echo 'FROM gemma4:12b
PARAMETER num_ctx 16384' > gemma4-16k.Modelfile

ollama create gemma4:12b-16k -f gemma4-16k.Modelfile

模型	模型大小	每 token KV cache	建议上下文
qwen3.5:9b	6.6 GB	~32 KB	128K
gpt-oss-abliterated:20b	13 GB	~34 KB	64K
gemma4:12b	7.4 GB	~448 KB	16K

Gemma4 的 KV 投影维度 512 per head，48 层中 40 层为 8 KV heads，导致 KV cache 开销远大于前两者。但滑动窗口层（8 层 1 KV head）用环形缓冲区节省了空间。