银河AI开放平台

SORA概述

我们正在教授人工智能理解和模拟运动中的物理世界，目标是训练模型来帮助人们解决需要现实世界交互的问题。

1、隆重介绍 Sora，我们的文本转视频模型。 Sora 可以生成长达一分钟的视频，同时保持视觉质量并遵守用户的提示。

如今，红队成员可以使用 Sora 来评估关键区域的危害或风险。我们还向许多视觉艺术家、设计师和电影制作人提供访问权限，以获取有关如何改进该模型以对创意专业人士最有帮助的反馈。

2、我们很早就分享了我们的研究进展，以便开始与 OpenAI 之外的人合作并获取反馈，让公众了解即将出现的人工智能功能。

3、Sora 能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。该模型不仅了解用户在提示中提出的要求，还了解这些东西在物理世界中的存在方式。

4、该模型对语言有深入的理解，使其能够准确地解释提示并生成引人注目的99字符来表达充满活力的情感。 Sora 还可以在单个生成的视频中创建多个镜头，准确地保留角色和视觉风格。

5 当前的模型存在弱点。它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系的具体实例。例如，一个人可能咬了一口饼干，但之后饼干可能没有咬痕。

6 该模型还可能会混淆提示的空间细节，例如混淆左右，并且可能难以精确描述随着时间推移发生的事件，例如遵循特定的相机轨迹。

在 OpenAI 产品中使用 Sora 之前，我们将采取几个重要的安全措施。我们正在与红队成员（错误信息、仇恨内容和偏见等领域的领域专家）合作，他们将以对抗性的方式测试该模型。

我们仍在构建工具来帮助检测错误内容，例如检测分类器，可以判断Sora何时生成视频。如果我们在OpenAI产品中部署模型，我们计划未来包含C2PA元数据。

7\除了开发新的来准备部署之外，我们还利用为使用 DALL·E 3 的产品构建的现有安全方法，这些方法也适用于 Sora。

例如，在 OpenAI 产品中，我们的分类器将检查并拒绝违反我们的使用政策的文本输入提示，例如要求极端暴力、性内容、仇恨图像、名人肖像或其他 IP 的文本输入提示。它具有强大的图像分类器，用于检查生成的每个视频的帧，以帮助确保在向用户显示之前符合我们的使用政策。

8 我们将与世界各地的政策制定者、教育工作者和艺术家合作，了解他们的担忧并确定这是一项新的积极举措。尽管进行了广泛的研究和测试，我们仍然无法预测使用我们的技术的技术所有有利的方式，也无法预测人们窃取我们的技术的所有方式。这就是为什么我们相信，随着时间的推移，从现实世界的使用中学习正在创建和发布越来越安全的人工智能系统的关键组成部分部分。9 Sora是一个扩散模型，它从看起来像静态噪声的视频开始生成视频，然后通过多个步骤消除噪声来逐步对其进行转换。

Sora 能够一次生成整个视频或扩展生成的视频以设置更长的时间。一次通过为模型提供多个预见的视野，解决了我们遇到的一个棘手的问题，即确保主题即使离开暂时视野也保持不变。

与GPT模型类似，Sora使用变压器架构，释放出卓越的扩展性能。

我们将视频和图像表示为称为碎片的较小数据单元的集合，每个组成了 GPT 中的令牌。通过统一我们表示数据的方式，我们可以在比以前更广泛的视觉上训练数据扩散转换器，讲述不同的持续时间、分辨率和纵横比。

10索拉建立在过去对 DALL·E 和 GPT 模型的研究之上。它使用 DALL·E 3 的重述技术，该技术涉及为训练视觉数据生成高度描述性的标题。，该模型能够更加忠实地遵循生成视频中用户的文本指令。

除了能够仅根据文本指令生成视频之外，该模型还能够获取现有的静态图像并从中生成视频，准确地动画图像的内容并关注小细节。该模型还可以获取现有视频并对其进行扩展或填充缺失的帧。请参阅我们的技术报告了解更多信息。

Sora 是能够理解和模拟现实世界的模型的基础，我们相信这一功能将成为实现 AGI 的重要里程碑。

上一篇文章：OpenAI最新的视频大模性 SORA技术简介 | 下一篇文章：没有了