OpenTalking¶
项目简介¶
OpenTalking 是一个面向实时数字人应用的开源编排框架,负责连接前端交互、会话状态、 LLM 回复、TTS/音色、字幕事件、WebRTC 音视频播放,以及本地或远端的数字人合成后端。
OpenTalking 的定位不是部署的 talking-head 模型服务,而是数字人产品和模型服务之间的实时编排层。 它将 LLM、语音识别、语音合成、Avatar 渲染、事件流和播放链路组织为统一的运行时, 使开发者可以从 Mock 验证开始,逐步切换到 Wav2Lip、QuickTalk、MuseTalk、FlashTalk 或 OmniRT 等真实模型和推理后端。
项目适用于 AI 客服、商品讲解、课程口播、新闻播报、陪伴角色和企业私有化数字人等场景。 如果你是第一次使用,建议先从 Quick Start 跑通 Mock 链路; 如果你已经关注模型能力、推理后端或 GPU/NPU 部署,可以继续阅读 模型支持。
演示视频¶
主要功能¶
- 实时对话链路:统一管理语音输入、LLM 回复、TTS 合成、字幕事件、Avatar 渲染和 WebRTC 播放。
- 可插拔模型后端:支持
mock、local、direct_ws、omnirt等后端形态,便于从本地验证扩展到远端推理服务。 - 多模型接入路径:面向 Wav2Lip、QuickTalk、MuseTalk、FlashTalk、FlashHead 等模型提供逐步完善的接入规划。
- 开放的 LLM/TTS 配置:支持 OpenAI-compatible LLM endpoint,可接入 DashScope、DeepSeek、Ollama、vLLM 或企业内部模型服务。
- WebUI 与命令行工具:提供 WebUI 完成会话验证、Avatar 选择、音色配置和模型状态查看,也提供命令行入口用于启动服务和调试。
- 工程化运行形态:支持本地开发、Mock 验证、Docker、API / Worker 分离,以及外部推理服务集成。
使用指南¶
- Quick Start:首次运行 OpenTalking,使用
mockbackend 跑通最小链路。 - Usage:学习命令行启动、WebUI 使用、Avatar 配置和音色/TTS 配置。
- Persona Package:导入、校验和运行完整数字人 Agent 交付包。
- Examples:从 AI 客服、商品讲解、课程口播等场景理解 OpenTalking 的应用方式。
- Model Support:了解模型、推理后端和生产拓扑,例如 Wav2Lip、QuickTalk、FlashTalk 和 OmniRT。
- 参考资料:查看 Benchmark、性能指标和更新日志。
- FAQ:排查安装、配置、WebRTC、模型 backend 和运行问题。
许可证信息¶
OpenTalking 采用 Apache License 2.0。项目中接入或引用的 talking-head 模型、模型权重、TTS 服务、 LLM 服务和外部推理 backend 可能有各自的许可证或使用条款。部署、分发或商用前,请确认对应项目、 模型和服务的授权范围。