跳转至

OpenTalking

OpenTalking logo

GitHub stars GitHub forks Open issues Issue resolution PyPI planned Python >= 3.10 GitHub downloads Source downloads ModelScope Hugging Face

项目简介

OpenTalking 是一个面向实时数字人应用的开源编排框架,负责连接前端交互、会话状态、 LLM 回复、TTS/音色、字幕事件、WebRTC 音视频播放,以及本地或远端的数字人合成后端。

OpenTalking 的定位不是部署的 talking-head 模型服务,而是数字人产品和模型服务之间的实时编排层。 它将 LLM、语音识别、语音合成、Avatar 渲染、事件流和播放链路组织为统一的运行时, 使开发者可以从 Mock 验证开始,逐步切换到 Wav2Lip、QuickTalk、MuseTalk、FlashTalk 或 OmniRT 等真实模型和推理后端。

项目适用于 AI 客服、商品讲解、课程口播、新闻播报、陪伴角色和企业私有化数字人等场景。 如果你是第一次使用,建议先从 Quick Start 跑通 Mock 链路; 如果你已经关注模型能力、推理后端或 GPU/NPU 部署,可以继续阅读 模型支持

演示视频

主要功能

  • 实时对话链路:统一管理语音输入、LLM 回复、TTS 合成、字幕事件、Avatar 渲染和 WebRTC 播放。
  • 可插拔模型后端:支持 mocklocaldirect_wsomnirt 等后端形态,便于从本地验证扩展到远端推理服务。
  • 多模型接入路径:面向 Wav2Lip、QuickTalk、MuseTalk、FlashTalk、FlashHead 等模型提供逐步完善的接入规划。
  • 开放的 LLM/TTS 配置:支持 OpenAI-compatible LLM endpoint,可接入 DashScope、DeepSeek、Ollama、vLLM 或企业内部模型服务。
  • WebUI 与命令行工具:提供 WebUI 完成会话验证、Avatar 选择、音色配置和模型状态查看,也提供命令行入口用于启动服务和调试。
  • 工程化运行形态:支持本地开发、Mock 验证、Docker、API / Worker 分离,以及外部推理服务集成。

使用指南

  • Quick Start:首次运行 OpenTalking,使用 mock backend 跑通最小链路。
  • Usage:学习命令行启动、WebUI 使用、Avatar 配置和音色/TTS 配置。
  • Persona Package:导入、校验和运行完整数字人 Agent 交付包。
  • Examples:从 AI 客服、商品讲解、课程口播等场景理解 OpenTalking 的应用方式。
  • Model Support:了解模型、推理后端和生产拓扑,例如 Wav2Lip、QuickTalk、FlashTalk 和 OmniRT。
  • 参考资料:查看 Benchmark、性能指标和更新日志。
  • FAQ:排查安装、配置、WebRTC、模型 backend 和运行问题。

许可证信息

OpenTalking 采用 Apache License 2.0。项目中接入或引用的 talking-head 模型、模型权重、TTS 服务、 LLM 服务和外部推理 backend 可能有各自的许可证或使用条款。部署、分发或商用前,请确认对应项目、 模型和服务的授权范围。