OpenAI 文本转视频模型 Sora 令人惊叹，但仍然存在弱点

Time：2024-02-18 Click：261

人工智能公司 OpenAI 于周四推出了其首个文本转视频模型，获得了热烈反响，不过该公司承认该模型还有很长的路要走。

OpenAI 于 2 月 15 日推出了名为 Sora 的新生成式 AI 模型，据称该模型可以根据简单的文本提示创建详细的视频、延续现有视频，甚至基于静态图像生成场景。

隆重推出 Sora，我们的文本转视频模型。Sora 可以创建长达 60 秒的视频，其中包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色。

https://t.co/7j2JN27M3WPprompt：“美丽，白雪皑皑…… pic.twitter.com/ruTEWn87vf

- OpenAI (@OpenAI) 2024 年 2 月 15 日

根据 2 月 15 日的博客文章，OpenAI 声称 AI 模型可以生成分辨率高达 1080p 的类似电影的场景。

这些场景可以包括多个角色、特定类型的运动以及主题和背景的准确细节。

索拉的工作原理

与 OpenAI 基于图像的前身 DALL-E 3 非常相似，Sora 运行在所谓的“扩散”模型上。

扩散是指生成式人工智能模型通过生成看起来更像“静态噪声”的视频或图像来创建其输出，然后通过几个步骤“消除噪声”来逐渐对其进行转换。

宣布推出 Sora——我们的模型可以根据文本提示创建一分钟长的视频：https://t.co/SZ3OxPnxwz pic.twitter.com/0kzXTqK9bG

— 格雷格·布罗克曼 (@gdb) 2024 年 2 月 15 日

这家人工智能公司写道，Sora 是建立在 GPT 和 DALL-E3 模型过去研究的基础上的，该公司声称这使得该模型能够更好地“忠实”地代表用户输入。

OpenAI 承认 Sora 仍然存在一些弱点，并且很难准确地模拟复杂场景的物理原理，即混淆了因果关系的本质。

“例如，一个人可能咬了一口饼干，但之后饼干可能没有咬痕。”

该公司表示，新工具还可能通过混淆左右方向或无法遵循精确的方向描述来混淆给定提示的“空间细节”。

索拉可能会意外地产生物理上难以置信的运动。

来源：OpenAI

OpenAI 表示，新的生成模型目前仅适用于“红队成员”（网络安全研究人员的技术用语），以评估“危害或风险的关键领域”，并选择设计师、视觉艺术家和电影制作人来收集有关如何推进模型。

2023 年 12 月，斯坦福大学的一份报告显示，使用人工智能数据库 LAION 的人工智能图像生成工具正在接受数千张非法虐待儿童材料的图像的训练，这引发了文本到文本转换的严重道德和法律问题。图像或视频模型。

X上的用户“无语”

数十个视频演示已在 X 上流传，展示了 Sora 的实际操作示例，而 Sora 目前在 X 上已发布超过 173,000 个帖子，成为热门话题。

为了展示新的生成模型的能力，OpenAI 首席执行官 Sam Altman 向 X 上的用户开放了自定义视频生成请求，这位 AI 负责人总共分享了 7 个 Sora 生成的视频，从鸭子骑龙回到金毛猎犬在山顶录制播客。

https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP

— Sam Altman (@sama) 2024 年 2 月 15 日

人工智能评论员 Mckay Wrigley 以及其他许多人写道，Sora 生成的视频让他“无言以对”。

Nvidia 高级研究员 Jim Fan 在 2 月 15 日发布的 X 帖子中宣称，任何认为 Sora 只是另一个“创意玩具”（如 DALL-E 3）的人都大错特错。

如果您认为 OpenAI Sora 是像 DALLE 一样的创意玩具，...再想一想。

Sora 是一个数据驱动的物理引擎。

它是对许多世界的模拟，无论是真实的还是幻想的。

模拟器学习复杂的渲染、“直观”物理、长期推理和语义基础，所有这些…… pic.twitter.com/pRuiXhUqYR

— 吉姆·范 (@DrJimFan) 2024 年 2 月 15 日

在 Fan 看来，Sora 与其说是一个视频生成工具，不如说是一个“数据驱动的物理引擎”，因为人工智能模型不仅生成抽象视频，而且还确定性地创建场景本身中对象的物理特性。

杂志：“加密货币是不可避免的”，所以我们“全力以赴”——万斯·斯宾塞 (Vance Spencer)，permabull

标签：存在视频

<<上一条

下一条>>

OpenAI 文本转视频模型 Sora 令人惊叹，但仍然存在弱点

T： 2024-02-18 03:49:55
OpenAI于2月15日推出了名为Sora的新生成式AI模型，据称该模型可以根据简单的文本提示创建详细的视频、延续现有视频，甚至基于静态图像生成场景。com/0kzXTqK9bG—格雷格·布罗克曼(@gdb)2024年2月15日这家人工智能...

马斯克为比特币站台视频遭胸斩，SEC拉下宇宙网红下台

T： 2021-07-23 23:35:19
当地时间7月21日，由twiter（TWTR.US）创办人多尔西（JackDorsey）主持人的有关比特币的高峰会“The₿Word”线上上举办。特斯拉汽车CEO埃隆马斯克·马斯克在大会上表明，本人持股比特币、以太坊和比特币，特斯拉汽...

欧易OKEx联合腾讯科技推出《4分钟带你了解NFT》科普视频

T： 2021-11-28 16:56:42
10月21日，欧易OKEx协同网易科技荣誉出品NFT科普文章《4分钟带你了解NFT》宣布发布，视頻将在腾讯新闻先发。当NFT变成出风口，点爆互联网大佬陆续进入。万物皆可NFT，那麼NFT究竟是什么？科普文章用4分鐘解读NFT的历史时间，特性...

短视频平台如何利用NFT技术解决当今的困惑？

T： 2022-02-08 10:49:20
比如说这两天，某个大V，有个几千万用户甚至上亿用户的，平台说把你封掉就封掉了，封掉后，你就结束了，所有的粉丝、用户跟你毫无关系。Facebook、Twitter、谷歌也干类似的事情，它不需要承担任何的法律责任。现在在元宇宙，今后所有的博主或...

币圈相关资讯

币圈相关新闻

首页 资讯 消息 常识 快讯 交流 注册 合作

OpenAI 文本转视频模型 Sora 令人惊叹，但仍然存在弱点

OpenAI 文本转视频模型 Sora 令人惊叹，但仍然存在弱点

马斯克为比特币站台视频遭胸斩，SEC拉下宇宙网红下台

欧易OKEx联合腾讯科技推出《4分钟带你了解NFT》科普视频

短视频平台如何利用NFT技术解决当今的困惑？

首页

资讯

消息

常识

快讯

交流

注册

合作