Sora:揭秘已知与未知的科技奥秘

浏览量:231 发布时间:2024-02-20 09:17:50

    2月16日,OpenAI推出了一款革新性的AI视频生成工具——Sora,该工具以日语中的“天空”命名,象征着无限的创造力。尽管市场上已有如Runway的Gen-1和Gen-2、Google的Imagen Video和Phenaki,以及Meta的Make A Video等类似的文字或图像转视频工具,但Sora在视频生成技术和连贯性方面取得了显著突破。

    传统的AI视频生成工具通常采取逐帧生成图片的方式,然后将这些图片连续播放以形成视频。然而,这种方法的局限性在于,尽管各帧图片可能围绕同一关键词生成,但生成的结果往往大相径庭,导致视频在过长时会出现人物形象变化或其他不连贯问题。

    Sora则采用了独特的“空间时间补丁”技术。根据OpenAI发布的技术文件和专家的解读,Sora在接收到文字指令后,能够将预定视频切割为多个带有空间和时间信息的小片段,并分别进行生成。这一创新方法不仅提高了视频的生成效率,还确保了视频在长度和连贯性上的卓越表现。

    Sora的发布标志着AI视频生成技术进入了一个新的里程碑,它将为创作者和开发者提供更强大、更灵活的视频生成工具,推动AI在视频制作领域的广泛应用。

图片5.png

    OpenAI技术文件中展示的“空间时间补丁”技术示意图,为Sora赋予了前所未有的精细控制能力,确保了视频内容的前后一致,并极大地丰富了视频细节。在Sora发布的模拟视频中,这种连贯性所带来的优势显而易见,包括更加逼真的人物与环境互动模拟、视频的灵活扩展,以及将多个视频无缝融合为一个连贯的整体等。 

    不仅如此,Sora在物理建模和构图方面的表现也显著超越了以往的工具。与那些将输入图像统一裁剪为固定格式的传统工具不同,Sora能够直接按照原始图像的比例和分辨率生成视频,这意味着它能够更加精准地捕捉视频的核心内容,并以更加自然的角度模拟同一物体的不同动作。这一突破性的技术将为视频制作带来全新的可能性,开启AI视频生成的新篇章。

图片6.png

    OpenAI最新发布的示范视频截图展示了其强大的能力,指令要求“镜头穿越繁忙的东京城市街道,捕捉美丽的雪景,同时跟随几个人在雪天享受购物乐趣,周围樱花花瓣与雪花随风飘舞”。然而,尽管外界对其赞誉有加,关于Sora的许多细节仍然笼罩在神秘之中。

    目前,Sora的使用权限仅限于一小部分“视觉艺术家、设计师和电影制作人”以及特定的安全测试人员。关于其语言支持的范围和公开时间,OpenAI尚未给出明确答案。技术文件中仅简要介绍了Sora的技术原理,包括使用GPT、DALLE-3等前代技术进行文本分析,但并未像GPT-3那样公开训练集和模型结构。

    有专家猜测,Sora可能运用了纽约大学教授谢赛宁及其团队开发的技术模型,还有观点认为其采用了虚幻引擎5来创建部分训练数据。然而,OpenAI对于系统学习了多少视频以及视频来源等关键问题保持沉默,仅表示培训数据包括公开视频和获得版权许可的视频。

    这种保密措施似乎已成为大型科技公司发布新模型版本的标准做法。在Sora发布的同时,Google也推出了其Gemini 1.5升级版本,同样仅供少数开发者和企业客户预览。斯坦福大学基础模型研究中心对十大主要AI模型的分析显示,这些模型开发商普遍缺乏透明度。

    OpenAI对于暂不发布工具和更多细节的解释是,他们仍在努力减少生成视频中的错误信息、仇恨内容和偏见,并为所有生成的视频添加了水印。然而,这些水印同样可以被移除。考虑到短视频在政治和社会方面的巨大影响力,人工智能领域所面临的监管压力正前所未有的高涨。

 

    如有侵权,请联系删除。