首页 > 资讯 > 百科

OpenAI Sora模型引发关注,AI生成视频的质感和流畅度成关键问题

来源:本站整理 更新时间:2024-02-18 14:04:56

近期,OpenAI推出了新的AI视频模型Sora,该模型能够生成长达60秒的视频,且在视频质感和流畅度方面表现出色。这一突破引发了许多用户的关注和转发,认为视频效果令人叹为观止,有可能取代人工制作的相关工作。

然而,从RunwayML、Stable Video Diffusion(SVD)、Adobe Firefly等主流AI视频服务的使用和观察结果来看,目前AI生成视频的质感往往不如最初宣传的效果,并且在物体行进方向、人物四肢等方面存在明显错误,无法满足实际应用的需求。因此,Sora模型目前还处于测试阶段,需要经过安全测试和用户反馈后才能正式提供服务。

e4dde71190ef76c66f8b1e2dfd786ef7ae5167d3.jpg

值得一提的是,OpenAI并未避讳Sora模型生成错误内容的情况。在技术报告中,他们展示了一个Sora模型生成的错误视频,其中桌上的水杯先从底部流出果汁,然后沿着错误的方向和角度倒在桌上。

Sora模型之所以能够实现视频时长的突破,主要要归功于其采用的Diffusion Transformer架构。这个架构由Sora模型的主要作者Bill Peebles在2022年提出,并在ICCV 2023大会上进行了介绍。相对于传统的Diffusion模型中常用的U-Net结构,Bill Peebles将Transformer结构替代了U-Net结构,并将图像输入转化成了Patch,从而得到了新的Diffusion Transformers架构,提升了模型的深度和宽度可扩展性,为实现长视频输出奠定了基础。

从Sora模型背后的Diffusion Transformer架构不久前面世,以及Sora技术报告后引用的32篇研究论文多数是近3年新发布的研究结果来看,研究驱动已经成为AI发展的关键要素。AI领域的重要变化往往源于底层架构的研究创新,而这样的研究创新往往需要资源雄厚的机构,如OpenAI,才能实现。

在开发阶段,将Diffusion Transformer的研究成果落地成Sora产品所需投入的预训练、数据、工程资源巨大。而在Sora服务正式推出后,运营和推理过程中的资源消耗和算力成本也是不可小视的,因此融资驱动也成为AI发展的必要条件。

综上所述,通过观察和跟踪研究层面和融资层面的动向,我们能更好地洞察AI发展的未来走势。在Sora模型的例子中,尽管其引发了关注,但AI生成视频的质感和流畅度仍是关键问题,需要更多的研究和实践来提升。

Tags:

SQL Error: select a.*,b.classid,b.bclassid from ***_ecms_app as a inner join ***_enewsclass as b on a.classid=b.classid where (a.keyboard = 'OpenAI Sora模型') and b.bclassid=1,11 order by id DESC limit 1

猜你喜欢

精彩推荐