语音生成模型¶

语音生成模型通常以 TTS provider 的形式接入。它们将 LLM 输出转为音频，再驱动 talking-head backend。本文只做选型和入口导航；权重、启动、验证和排错放在各模型页面。

Provider 选项¶

Provider	类型	适用场景	入口
`edge`	托管 / 在线	首次运行、CPU 评估、无需 API key	`.env` provider 配置
`dashscope`	托管 API	中文实时 TTS、声音复刻、百炼体系	`.env` provider 配置
`cosyvoice`	自托管服务	已有 CosyVoice WebSocket / HTTP 服务	服务提供方文档
`elevenlabs`	托管 API	多语言托管音色	`.env` provider 配置
`local_cosyvoice`	本地部署	本地中文 TTS、内置音色和复刻音色	CosyVoice
`indextts`	本地部署 / OmniRT	可控配音、情绪控制和复刻音色	IndexTTS
`local_f5_tts`	本地部署	本地 F5-TTS Base 音色克隆	F5-TTS
`local_qwen3_tts`	本地部署	本地 Qwen3-TTS Base 复刻音色	Qwen3-TTS

每个本地模型页面都包含适用场景、权重准备、启动命令、验证命令和常见错误。