语音生成模型¶
语音生成模型通常以 TTS provider 的形式接入。它们将 LLM 输出转为音频,再驱动 talking-head backend。本文只做选型和入口导航;权重、启动、验证和排错放在各模型页面。
Provider 选项¶
| Provider | 类型 | 适用场景 | 入口 |
|---|---|---|---|
edge |
托管 / 在线 | 首次运行、CPU 评估、无需 API key | .env provider 配置 |
dashscope |
托管 API | 中文实时 TTS、声音复刻、百炼体系 | .env provider 配置 |
cosyvoice |
自托管服务 | 已有 CosyVoice WebSocket / HTTP 服务 | 服务提供方文档 |
elevenlabs |
托管 API | 多语言托管音色 | .env provider 配置 |
local_cosyvoice |
本地部署 | 本地中文 TTS、内置音色和复刻音色 | CosyVoice |
indextts |
本地部署 / OmniRT | 可控配音、情绪控制和复刻音色 | IndexTTS |
local_f5_tts |
本地部署 | 本地 F5-TTS Base 音色克隆 | F5-TTS |
local_qwen3_tts |
本地部署 | 本地 Qwen3-TTS Base 复刻音色 | Qwen3-TTS |
本地模型入口¶
每个本地模型页面都包含适用场景、权重准备、启动命令、验证命令和常见错误。