当前支持状态¶
本文档记录 omnirt 当前已经接入、已做真机 smoke、以及尚未完成的重点模型。
最近更新:2026-04-28
当前公开任务面¶
text2imageimage2imagetext2audiotext2videoimage2videoaudio2video
已接入模型¶
完整清单由 registry 自动生成:模型清单。本文档只追踪「真机 smoke」与「部分支持」两项状态。
已完成真机 smoke¶
以下模型已经基于本地模型目录完成真实硬件 smoke:
sdxl-base-1.0CUDA:已验证Ascend:已验证svd-xtCUDA:已验证Ascend:已验证soulx-flashtalk-14bAscend:已验证说明:persistent_worker常驻 8 卡Ascend 910B2链路已跑通;冷启动约91s,实时配置热态steady_chunk_core_ms_avg ≈ 891mssoulx-liveact-14bAscend:已验证说明: 外部 SoulX-LiveActgenerate.py已完成 4 卡Ascend 910B官方案例对齐;OmniRT 当前接入的是 script-backed wrapper,默认先用单张 NPU 生成 text context cache,再做 4 卡推理;推荐--text-cache-visible-devices <1张卡> --visible-devices <4张卡> --sample-steps 1做快速 smokesoulx-flashhead-1.3bAscend:已验证说明: 外部 SoulX-FlashHead checkout 已完成 910B NPU 适配和质量档验证;OmniRT 当前接入的是 script-backed 冷启动包装,默认2-step + 2D VAE split + latent_carry off。OmniRT 真机冷启动 benchmark:2 卡82.96s,4 卡84.08s,输出均为512x512 / 10s / 250 framescosyvoice3-triton-trtllmCUDA:已验证说明: 官方runtime/triton_trtllm服务已完成真实 benchmark;稳定配置为token2wav=2、vocoder=2、kv_cache_free_gpu_memory_fraction=0.2。OmniRT wrapper 真实生成2.92s / 24kHzwav,denoise_loop_ms=1969.611;官方 26 条 streaming benchmarkRTF=0.1303、平均首包699.13ms。客户端seed已透传,但服务端 BLS 仍需消费该参数才能完全固定采样。
已接入但仍待真机 smoke¶
这一批模型已经完成 registry、请求面和本地单测,但还没有在仓库里沉淀出“已验证”的本地模型目录与双后端 smoke 结果:
sdxl-refiner-1.0flux-fillflux-kontextqwen-image-editqwen-image-edit-plusqwen-image-layeredanimate-diff-sdxlkolorspixart-sigmabria-3.2lumina-t2xmochiskyreels-v2
其中一部分对应 smoke 用例已经具备。对于已经公开的 image2image,当前最推荐的模型起点是 sdxl-base-1.0、sdxl-refiner-1.0、sd15 和 sd21:
tests/integration/test_sdxl_refiner_cuda.pytests/integration/test_sdxl_refiner_ascend.pytests/integration/test_flux_fill_cuda.pytests/integration/test_flux_fill_ascend.pytests/integration/test_image_edit_cuda.pytests/integration/test_image_edit_ascend.py
部分支持¶
helios当前以helios-t2v/helios-i2v两个 registry key 形式提供。hunyuan-video-1.5当前以hunyuan-video-1.5-t2v/hunyuan-video-1.5-i2v两个 registry key 形式提供。
尚未完成的重点目标¶
flux-depthflux-cannychronoedit