跳转至

OpenTalking

概览

datascale-ai/opentalking

OpenTalking

datascale-ai/opentalking

首页
首页
- 快速开始
  快速开始
- 使用指南
  使用指南
  - 命令行使用
    命令行使用
    
    命令行工具
    
    命令行进阶参数
  - WebUI 使用
    WebUI 使用
    
    基础使用
    
    自定义 Avatar
    
    音色与 TTS
    
    视频克隆
- 案例教程
  案例教程
- 模型支持
  模型支持
  - 模型与后端选择
  - 本地语音 + QuickTalk
  - 推理后端
    推理后端
    
    Mock Backend
    
    Local Adapter
    
    Direct WebSocket
    
    OmniRT
  - 支持的模型
    支持的模型
    
    Wav2Lip
    
    QuickTalk
    
    MuseTalk
    
    FlashTalk
    
    FlashHead
- 部署指南
  部署指南
  - 支持矩阵
  - Avatar 资产
  - 语音模型
    
    语音模型
    
    语音识别模型
    语音识别模型
    
    概览
    
    SenseVoice
    
    语音生成模型
    语音生成模型
    
    概览
    
    CosyVoice
    
    IndexTTS
    
    Qwen3-TTS
  - 数字人模型部署
    
    数字人模型部署
    
    Mock Backend
    
    QuickTalk
    QuickTalk
    
    概览
    
    Local
    
    Apple Silicon
    
    OmniRT
    
    Wav2Lip
    Wav2Lip
    
    概览
    
    Local
    
    OmniRT
    
    MuseTalk
    MuseTalk
    
    概览
    
    Local
    
    OmniRT
    
    FasterLivePortrait
    
    FlashTalk
    
    FlashHead
  - 部署配方
    
    部署配方
    
    本地语音 + QuickTalk
- 参考资料
  参考资料
  - Benchmark
  - 更新日志
- 常见问题
  常见问题
  - 常见问题
快速开始
快速开始
使用指南
使用指南
- 命令行使用
  命令行使用
  - 命令行工具
  - 命令行进阶参数
- WebUI 使用
  WebUI 使用
案例教程
案例教程
模型支持
模型支持
- 模型与后端选择
- 本地语音 + QuickTalk
- 推理后端
  推理后端
- 支持的模型
  支持的模型
  - Wav2Lip
  - QuickTalk
  - MuseTalk
  - FlashTalk
  - FlashHead
部署指南
部署指南
- 支持矩阵
- Avatar 资产
- 语音模型
  语音模型
  - 语音识别模型
    语音识别模型
    
    概览
    
    SenseVoice
  - 语音生成模型
    语音生成模型
    
    概览
    
    CosyVoice
    
    IndexTTS
    
    Qwen3-TTS
- 数字人模型部署
  数字人模型部署
  - Mock Backend
  - QuickTalk
    QuickTalk
    
    概览
    
    Local
    
    Apple Silicon
    
    OmniRT
  - Wav2Lip
    Wav2Lip
    
    概览
    
    Local
    
    OmniRT
  - MuseTalk
    MuseTalk
    
    概览
    
    Local
    
    OmniRT
  - FasterLivePortrait
  - FlashTalk
  - FlashHead
- 部署配方
  部署配方
  - 本地语音 + QuickTalk
参考资料
参考资料
- Benchmark
- 更新日志
常见问题
常见问题
- 常见问题

语音模型¶

本目录汇总 OpenTalking 中与语音相关的模型部署、权重下载和验证。语音模型分为两类：

语音识别模型：把麦克风或上传音频转为文本；可本地部署的模型见 SenseVoice。
语音生成模型：把 LLM 输出文本转为音频；可本地部署的模型见 CosyVoice、IndexTTS 和 Qwen3-TTS。

LLM 负责决定“说什么”，不属于语音模型；语音模型只覆盖输入识别与输出合成。