项目简介 链接到标题
ChatTTS 是 2noise 团队开发的对话场景 TTS 模型,39.5k stars。
- 架构:GPT 自回归(非 VITS2)
- 语言:中文、英文
- 特点:token 级韵律控制(
[laugh]、[uv_break]、[lbreak]) - 协议:AGPL-3.0(代码)+ CC BY-NC 4.0(模型,仅限学术用途)
- 维护:活跃,v0.2.5(2026.04)
部署方式 链接到标题
基于 jianchang512/ChatTTS-ui 构建,提供 Web UI 和 API。
git clone https://github.com/jianchang512/ChatTTS-ui.git
cd ChatTTS-ui
docker compose -f docker-compose.cpu.yaml up -d
模型从 ModelScope 自动下载,端口 9966。
使用方式 链接到标题
Web UI 操作,支持中英文界面。核心参数:
temperature:生成随机性top_P/top_K:采样参数spk_emb:固定音色(可采样后复用)
高级用法支持 token 级控制:
params_refine_text = ChatTTS.Chat.RefineTextParams(
prompt='[oral_2][laugh_0][break_6]',
)
与 MeloTTS 对比 链接到标题
之前也部署过 MeloTTS(详见 MeloTTS 多语言 TTS 部署记录),两者对比:
| ChatTTS | MeloTTS | |
|---|---|---|
| 架构 | GPT 自回归 | VITS2 |
| 语言 | 中/英 | 6 种语言 |
| 韵律控制 | laugh/pause/break token | 无 |
| 音量稳定性 | 相对稳定 | 忽大忽小 |
| 中文自然度 | 稍逊 | 更自然 |
| 模型大小 | ~1.2GB | ~180MB |
| 显存需求 | 4GB+ | CPU 可跑 |
| 协议 | AGPL-3.0 + CC BY-NC 4.0 | MIT |
| Stars | 39.5k | 7.5k |
| 维护状态 | 活跃 | 停滞 |
ChatTTS 的优势在于韵律控制——可以精确插入笑声、停顿,音量也相对稳定。但中文发音的自然度不如 MeloTTS,而且自回归模型偶有多说话者或音质不稳的问题(多抽几次样可缓解)。
MeloTTS 的优势是轻量(CPU 可跑)、多语言、MIT 协议可商用,但音量忽大忽小是 VITS2 架构的先天缺陷。
现状 链接到标题
一年前技术选型搭建过,记录下来备查。
相关链接 链接到标题
- 2noise/ChatTTS — 原版模型仓库
- jianchang512/ChatTTS-ui — Web UI 封装
- HuggingFace 模型