4月27日,在中关村论坛未来人工智能先锋论坛上,清华大学教授、生数科技首席科学家朱军发布了中国首个长时长、高一致性、高动态性视频大模型——Vidu。
在论坛现场,朱军向观众展示了Vidu生成的视频,包括戴珍珠耳环的猫、弹吉他的熊猫以及摩登女郎等。与此前震撼业界的Sora一致,Vidu能够根据提供的文本描述直接生成高质量视频。
朱军表示,除了在时长方面的突破外,Vidu在视频效果方面实现显著提升,主要体现在几个方面,包括能够生成细节复杂的场景,且符合真实的物理规律;能够生成真实世界不存在的虚构画面,创造出具有深度和复杂性的超现实主义内容;能够生成复杂的动态镜头,不再局限于简单的推、拉、移等固定镜头,而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换;在16秒的时长上保持连贯流畅,随着镜头的移动,人物和场景在时间、空间中能够保持一致;能够生成特有的中国元素,例如熊猫、龙等。