跳转至

OmniRT 欢迎你

OmniRT OmniRT

面向 CUDA 与 Ascend 的统一图像 · 视频 · 音频数字人生成运行时。

GitHub stars License PyPI

OmniRT 为图像视频音频驱动的数字人模型提供一套统一运行时:相同的 GenerateRequest / GenerateResult / RunReport 契约、同一份 CLI 与 Python API、相同的请求校验流程、以及可替换的硬件后端抽象。

项目的三类典型读者有不同的起点:

OmniRT 在哪里

  • 统一请求契约GenerateRequest / GenerateResult / RunReport 三对象覆盖全部任务面
  • 跨后端运行时:同一份请求在 cuda / ascend / cpu-stub 下都能校验与执行
  • 任务面清晰text2imageimage2imagetext2videoimage2videoaudio2video 均为公开 API
  • 产物标准化:图像统一导出 PNG、视频统一导出 MP4、每次运行伴随一份 RunReport
  • 模型自描述:registry 通过 omnirt models 实时披露 min_vram_gb、推荐 preset 等元信息
  • 离线友好:本地模型目录、HF repo id、单文件权重三种加载路径等价支持

OmniRT 灵活在哪里

  • 三种入口:Python API、CLI (omnirt generate / validate / models) 与 FastAPI 服务
  • 16+ 模型家族:SD1.5 / SDXL / SVD / FLUX / FLUX2 / WAN / AnimateDiff / ChronoEdit / FlashTalk …
  • 中国区友好:开箱支持 ModelScope、HF-Mirror、离线快照、内网镜像
  • 异步派发queue / worker / policies 支持批量请求与多模型排队
  • 可插拔遥测middleware.telemetry 把运行指标接到你已有的观测栈
  • 安全默认值--dry-runvalidate 让你在真机上跑之前就能查出错

模型版图

OmniRT 支持的模型家族包括:

  • 图像生成(SD1.5、SD2.1、SDXL、SD3、FLUX、FLUX2、Qwen-Image)
  • 视频生成(SVD、SVD-XT、AnimateDiff-SDXL、WAN 2.2 T2V/I2V、CogVideoX、Hunyuan-Video、LTX2、ChronoEdit)
  • 数字人(SoulX-FlashTalk)
  • 通用图像编辑(Generalist Image family)

完整清单请看 模型清单,或本地运行 omnirt models

当前公开任务面

任务面 输入 输出 代表模型
text2image prompt PNG sd15, sdxl-base-1.0, flux2.dev, qwen-image
image2image prompt + image PNG sd15, sd21, sdxl-base-1.0, sdxl-refiner-1.0
text2video prompt MP4 wan2.2-t2v-14b, cogvideox-2b, hunyuan-video
image2video prompt + first-frame MP4 svd, svd-xt, wan2.2-i2v-14b, ltx2-i2v
audio2video audio + portrait MP4 soulx-flashtalk-14b

稳定边界

inpaint / edit / video2video 的底层接线已部分铺设,但仍在向完整公开任务面演进,详见 支持状态

深入了解

  • 路线图 — 接下来要支持哪些模型
  • 架构说明 — interface / engine / executor / telemetry 的整体协作
  • 国内部署 — ModelScope / HF-Mirror / 离线快照完整流程