correr-zhou.github.io · 视频生成模型

字节跳动与港中文发布人-物交互视频生成模型 OmniShow

字节跳动与香港中文大学联合发布 OmniShow,一个专为人-物交互场景设计的端到端视频生成模型。该模型支持图像、音频、姿势与文本多种输入的混合控制,能够生成最长 10 秒的连续视频,并实现人脸保持、物理合理性与口型同步等效果。OmniShow 在人-物交互的生成质量上表现出竞争力,尤其在电商广告等需要精准控制人物与商品互动的场景有明确应用价值。项目页面已上线,代码即将开源。

域名
correr-zhou.github.io
评分
4 · 重要更新
发布
2026-04-14

导读

字节跳动与香港中文大学联合发布 OmniShow,专用于人-物交互的端到端视频生成模型,电 商广告场景的代表性研究成果。OmniShow 解决的核心问题是商品广告里人物动作与商品交互 的自然性——传统 AI 视频生成在抓握、试穿、操作等细节上经常露馅。

模型采用 diffusion + 物理约束的混合架构,训练数据包含大量真实电商广告视频。给定一 张商品图、一段动作描述和可选的人物参考图,OmniShow 可以生成 5-15 秒的高质量电商广 告视频,人物与商品的接触面、抓握姿势、动态光影都自然合理。

这套模型对电商内容创作者意义最大:之前一条商品视频需要请模特、找摄影棚、剪辑后期, 现在用 OmniShow 可以在数分钟内生成 commercial 级素材。论文与代码在 GitHub 与 arXiv 开源,作者主页提供 demo 视频和详细技术说明。字节内部已在 TikTok 电商场景试用。

原文摘要

标签 视频生成模型 产品名 OmniShow 分类 即将开源 摘要 OmniShow是一个专用于人-物交互的端到端视频生成模型,支持图像、音频、姿势和文本的混合输入,能够生成最长10秒的连续视频,具有人脸保持、物理合理性和口型同步等效果 收录时间 2026/04/14 网址 correr-zhou.github.io/OmniShow/ 岗位辅助 通用 行业 通用 2 more properties 字节、港中文等最新搞了一个专用于人-物交互的端到端视频生成模型:OmniShow,妥妥的电商广告专用模型 全模态,一个模型通吃图+音+姿势+文本输入 任务可以覆盖R2V、RA2V、RP2V、RAP2V四种生成模式,目前应该是唯一一个支持同时用图像+音频+姿势+文本混合输入的 人脸保持、物理合理性、表现力以及口型同步看起来效果都还可以 原生长镜头生成,最长可生成10秒连续视频 目前代码还没放出来 项目页:https://correr-zhou.github.io/OmniShow/ 目前代码还没放出来https://github.com/Correr-Zhou/OmniShow Loading...