自建 ChatTTS 语音合成服务

项目简介链接到标题

ChatTTS 是 2noise 团队开发的对话场景 TTS 模型，39.5k stars。

基于 jianchang512/ChatTTS-ui 构建，提供 Web UI 和 API。

git clone https://github.com/jianchang512/ChatTTS-ui.git
cd ChatTTS-ui
docker compose -f docker-compose.cpu.yaml up -d

模型从 ModelScope 自动下载，端口 9966。

Web UI 操作，支持中英文界面。核心参数：

高级用法支持 token 级控制：

params_refine_text = ChatTTS.Chat.RefineTextParams(
    prompt='[oral_2][laugh_0][break_6]',
)

之前也部署过 MeloTTS（详见 MeloTTS 多语言 TTS 部署记录），两者对比：

ChatTTS 的优势在于韵律控制——可以精确插入笑声、停顿，音量也相对稳定。但中文发音的自然度不如 MeloTTS，而且自回归模型偶有多说话者或音质不稳的问题（多抽几次样可缓解）。

MeloTTS 的优势是轻量（CPU 可跑）、多语言、MIT 协议可商用，但音量忽大忽小是 VITS2 架构的先天缺陷。

一年前技术选型搭建过，记录下来备查。