跳转至

OpenTalking

支持矩阵

datascale-ai/opentalking

支持矩阵¶

本页用于汇总当前 OpenTalking 中哪些能力已经内置，哪些只是给出了接入路径，哪些在仓库文档里已经有明确验证依据。适合作为进入详细部署文档前的决策页。

如何阅读这张矩阵¶

状态	含义
已内置	能力已在本仓库中实现，可直接在当前产品表面选择。
已文档化	接入路径已经写清楚，但运行是否可用仍取决于你的外部服务或模型权重。
已验证	仓库文档、测试或 benchmark 中已有明确验证证据。
规划中	架构边界已经预留，但本地 runtime 还没有随仓库一起提供。

全链路能力矩阵¶

层级	选项	接入方式	默认 / 推荐	状态	说明
LLM	DashScope `qwen-flash`	OpenAI-compatible endpoint	默认首跑路径	已内置，已验证	当前 quickstart 默认路径。
LLM	OpenAI-compatible endpoints	`OPENTALKING_LLM_BASE_URL`	环境里已有标准服务时使用	已内置，已文档化	覆盖 OpenAI、vLLM、Ollama、DeepSeek 等。
STT	DashScope Paraformer realtime	Provider adapter	默认麦克风路径	已内置，已验证	默认语音输入流程依赖它。
STT	SenseVoiceSmall	本地 FunASR adapter	本地语音输入路径	已内置，已验证	CPU 可用，适合短句实时交互。
TTS	Edge TTS	本地 provider adapter	默认首跑路径	已内置，已验证	最轻量，不需要 API key。
TTS	DashScope Qwen realtime TTS	Provider adapter	需要托管中文实时 TTS 时推荐	已内置，已文档化	也用于部分声音复刻相关流程。
TTS	Local CosyVoice3 0.5B	本地 CosyVoice service / adapter	本地音色与复刻路径	已内置，已验证	使用 `local_cosyvoice`，推荐独立启动服务。
TTS	CosyVoice service	Provider adapter / 远端服务	自建音色服务场景	已内置，已文档化	某些流程需要 `OPENTALKING_PUBLIC_BASE_URL`。
TTS	ElevenLabs	Provider adapter	托管多语言音色	已内置，已文档化	需要 API key 和 voice id。
Avatar	内置示例 avatar	本地资产包	默认首跑路径	已内置，已验证	适合 `mock`、Wav2Lip 等文档路径。
Avatar	自定义上传形象	`/avatars/custom`	快速接入自定义形象	已内置，已文档化	当前最佳兼容路径是 Wav2Lip 风格图片 avatar。
Avatar	模型特定 manifest	本地资产包	QuickTalk / FlashHead / FlashTalk 必需	已内置，已文档化	`model_type` 必须与所选合成模型一致。

Talking-head 模型矩阵¶

模型	backend 选择	仓库默认值	验证级别	推荐硬件路径	当前建议
`mock`	`mock`	`mock`	已内置，已验证	CPU	最快的全链路自测路径，不需要模型权重。
`wav2lip`	`local`、`omnirt`、`direct_ws`	`local`	local adapter 已内置并有测试覆盖；OmniRT 兼容路径已文档化	CPU 可跑；OmniRT 兼容路径用单 GPU 或 Ascend 910B	最推荐的第一个轻量 talking-head 验证路径。
`musetalk`	`omnirt`、`direct_ws`、`local`	`omnirt`	local adapter 已内置，会在会话初始化前运行官方预处理；OmniRT 和 direct WebSocket 路径仍已文档化	单 GPU 或远端模型服务	单机验证且已安装权重和 OpenMMLab 预处理依赖时可用 `local`；生产隔离优先用 OmniRT。
`quicktalk`	`local`、`omnirt`	`omnirt`	local adapter 已内置并有真实链路验证；OmniRT 兼容路径已文档化	CUDA GPU	单机路线用 `--backend local`；需要服务隔离时接 OmniRT。
`fasterliveportrait`	`omnirt`	`omnirt`	已文档化	单张 CUDA GPU + TensorRT	通过 OmniRT `/v1/audio2video/fasterliveportrait` 提供 JoyVASA 音频驱动和 FasterLivePortrait 贴回渲染。
`flashtalk`	`omnirt`、legacy `direct_ws` fallback	`omnirt`	OmniRT 路径已文档化，Ascend 路径已验证	4090 级 GPU 或 Ascend 910B 多卡	高质量重模型路径。
`flashhead`	`direct_ws`	`direct_ws`	已文档化	外部 FlashHead 服务	OpenTalking 负责编排和客户端接入，不负责托管模型。

Backend 行为矩阵¶

Backend	OpenTalking 期望什么	何时视为 connected	典型模型
`mock`	无外部 runtime	始终可用	`mock`
`local`	进程内 adapter/runtime	adapter 可 import 且依赖满足	`wav2lip`、`quicktalk`、`musetalk`
`direct_ws`	模型自带远端服务	已配置模型专属 WebSocket URL	`flashhead`、自定义单模型服务
`omnirt`	OmniRT `/v1/audio2video/{model}`	OmniRT 可达且返回该模型	`wav2lip`、`musetalk`、`quicktalk`、`fasterliveportrait`、`flashtalk`

验证说明¶

路径	仓库中的证据
`mock`	quickstart 与 `/models` 示例都覆盖了完整自测路径。
`wav2lip + local`	内置 adapter 注册、`/models` `reason=local_runtime` 和本地渲染测试覆盖。
`musetalk + local`	内置 adapter 注册、本地 MuseTalk 测试覆盖，并会在会话初始化前执行官方头像预处理。
`wav2lip + omnirt`	保留启动脚本和 `/models` 状态语义，适合 checkpoint-backed 兼容路径。
`sensevoice + local_cosyvoice + quicktalk local`	本地 STT/TTS provider、QuickTalk local adapter、前端 provider 选择和自定义 avatar 流程都有测试或真实链路验证。
`quicktalk + omnirt`	保留为兼容服务化路径；本地单机优先使用 `quicktalk + local`。
`fasterliveportrait + omnirt`	FasterLivePortrait 文档覆盖 JoyVASA/chinese-hubert-base checkpoint、TensorRT 启动、`/v1/audio2video/fasterliveportrait`、前端参数和热更新。
`flashtalk + omnirt`	有启动脚本、legacy fallback 说明，以及 README 中 Ascend 910B2 x8 的验证记录。
`flashhead + direct_ws`	有配置接入路径，以及 Talking-head 文档中的 `/models` `reason=direct_ws` 示例。

推荐起步路径¶

先用 mock 验证浏览器、API、LLM、STT、TTS 和 WebRTC。
想接入最轻量的 talking-head 验证，先用本地 wav2lip。
想验证本地语音输入、本地语音合成和 QuickTalk 实时视频，选本地 STT/TTS + QuickTalk。
想在单张 CUDA 机器上验证 MuseTalk 质量，且可以安装预处理依赖时，选本地 musetalk。
想验证实时 audio2video 且可使用 CUDA 时，单机选 QuickTalk Local，服务隔离选 QuickTalk with OmniRT。
想在单张 CUDA GPU 上做实时音频驱动头像贴回时，选 fasterliveportrait。
质量优先、可接受部署重量时，选 flashtalk。
已经有独立 FlashHead 服务时，再选 flashhead。

下一步¶

前端入口¶

模型或后端服务启动后，统一用 OpenTalking WebUI 访问：

终端

cd "$OPENTALKING_HOME"
bash scripts/quickstart/start_frontend.sh --api-port 8000 --web-port 5173 --host 0.0.0.0

远程服务器部署时，把本地浏览器端口映射到服务器 5173，再打开 http://127.0.0.1:5173。