QuickTalk
QuickTalk 是 OpenTalking 中偏实时口播的 talking-head 模型,适合低延迟数字人对话和本地 GPU 快速试跑。本文只做选型导览;具体权重、启动和验证命令见下方部署模式页。
支持状态
| 项 |
值 |
| 模型 ID |
quicktalk |
| Backend |
local / omnirt |
| 证据等级 |
local adapter 已内置并验证;OmniRT 服务化路径已文档化 |
| 推荐用途 |
实时口播、低延迟验证、本地或服务化推理 |
Benchmark 参考
以下数据摘自 Benchmark。稳态FPS 表示模型持续生成吞吐,不等同于完整用户体感延迟;完整链路还会受到 STT、LLM、TTS、队列和 WebRTC 影响。
| 硬件 |
Backend |
输出 |
稳态FPS |
首轮总延迟/ms |
TTFV/ms |
推理峰值显存/GB |
| RTX 3090 |
OmniRT |
540×900 / 25fps |
29.23 |
3356.019 |
1800.524 |
1.662 |
| RTX 4090 |
OmniRT |
540×900 / 25fps |
46.921 |
2561.146 |
1064.825 |
1.838 |
| NPU 910B2 |
OmniRT |
540×900 / 25fps |
29.66 |
3212.053 |
1782.861 |
2.473 |
| RTX 3050 Laptop |
OmniRT |
306×512 / 25fps |
20.695 |
4243.26 |
2661 |
1.396 |
选择部署模式
相关页面