项目简介 链接到标题

ChatTTS 是 2noise 团队开发的对话场景 TTS 模型,39.5k stars。

  • 架构:GPT 自回归(非 VITS2)
  • 语言:中文、英文
  • 特点:token 级韵律控制([laugh][uv_break][lbreak]
  • 协议:AGPL-3.0(代码)+ CC BY-NC 4.0(模型,仅限学术用途)
  • 维护:活跃,v0.2.5(2026.04)

部署方式 链接到标题

基于 jianchang512/ChatTTS-ui 构建,提供 Web UI 和 API。

git clone https://github.com/jianchang512/ChatTTS-ui.git
cd ChatTTS-ui
docker compose -f docker-compose.cpu.yaml up -d

模型从 ModelScope 自动下载,端口 9966。

使用方式 链接到标题

Web UI 操作,支持中英文界面。核心参数:

  • temperature:生成随机性
  • top_P / top_K:采样参数
  • spk_emb:固定音色(可采样后复用)

高级用法支持 token 级控制:

params_refine_text = ChatTTS.Chat.RefineTextParams(
    prompt='[oral_2][laugh_0][break_6]',
)

与 MeloTTS 对比 链接到标题

之前也部署过 MeloTTS(详见 MeloTTS 多语言 TTS 部署记录),两者对比:

ChatTTS MeloTTS
架构 GPT 自回归 VITS2
语言 中/英 6 种语言
韵律控制 laugh/pause/break token
音量稳定性 相对稳定 忽大忽小
中文自然度 稍逊 更自然
模型大小 ~1.2GB ~180MB
显存需求 4GB+ CPU 可跑
协议 AGPL-3.0 + CC BY-NC 4.0 MIT
Stars 39.5k 7.5k
维护状态 活跃 停滞

ChatTTS 的优势在于韵律控制——可以精确插入笑声、停顿,音量也相对稳定。但中文发音的自然度不如 MeloTTS,而且自回归模型偶有多说话者或音质不稳的问题(多抽几次样可缓解)。

MeloTTS 的优势是轻量(CPU 可跑)、多语言、MIT 协议可商用,但音量忽大忽小是 VITS2 架构的先天缺陷。

现状 链接到标题

一年前技术选型搭建过,记录下来备查。

相关链接 链接到标题