OpenTalking¶

OpenTalking logo

项目简介¶

OpenTalking 是一个面向实时数字人应用的开源编排框架，负责连接前端交互、会话状态、 LLM 回复、TTS/音色、字幕事件、WebRTC 音视频播放，以及本地或远端的数字人合成后端。

OpenTalking 的定位不是部署的 talking-head 模型服务，而是数字人产品和模型服务之间的实时编排层。它将 LLM、语音识别、语音合成、Avatar 渲染、事件流和播放链路组织为统一的运行时，使开发者可以从 Mock 验证开始，逐步切换到 Wav2Lip、QuickTalk、MuseTalk、FlashTalk 或 OmniRT 等真实模型和推理后端。

项目适用于 AI 客服、商品讲解、课程口播、新闻播报、陪伴角色和企业私有化数字人等场景。如果你是第一次使用，建议先从 Quick Start 跑通 Mock 链路；如果你已经关注模型能力、推理后端或 GPU/NPU 部署，可以继续阅读模型支持。

演示视频¶

主要功能¶

实时对话链路：统一管理语音输入、LLM 回复、TTS 合成、字幕事件、Avatar 渲染和 WebRTC 播放。
可插拔模型后端：支持 mock、local、direct_ws、omnirt 等后端形态，便于从本地验证扩展到远端推理服务。
多模型接入路径：面向 Wav2Lip、QuickTalk、MuseTalk、FlashTalk、FlashHead 等模型提供逐步完善的接入规划。
开放的 LLM/TTS 配置：支持 OpenAI-compatible LLM endpoint，可接入 DashScope、DeepSeek、Ollama、vLLM 或企业内部模型服务。
WebUI 与命令行工具：提供 WebUI 完成会话验证、Avatar 选择、音色配置和模型状态查看，也提供命令行入口用于启动服务和调试。
工程化运行形态：支持本地开发、Mock 验证、Docker、API / Worker 分离，以及外部推理服务集成。

使用指南¶

Quick Start：首次运行 OpenTalking，使用 mock backend 跑通最小链路。
Usage：学习命令行启动、WebUI 使用、Avatar 配置和音色/TTS 配置。
Persona Package：导入、校验和运行完整数字人 Agent 交付包。
Examples：从 AI 客服、商品讲解、课程口播等场景理解 OpenTalking 的应用方式。
Model Support：了解模型、推理后端和生产拓扑，例如 Wav2Lip、QuickTalk、FlashTalk 和 OmniRT。
参考资料：查看 Benchmark、性能指标和更新日志。
FAQ：排查安装、配置、WebRTC、模型 backend 和运行问题。

许可证信息¶

OpenTalking 采用 Apache License 2.0。项目中接入或引用的 talking-head 模型、模型权重、TTS 服务、 LLM 服务和外部推理 backend 可能有各自的许可证或使用条款。部署、分发或商用前，请确认对应项目、模型和服务的授权范围。