OpenAI Sora模型：文本生成视频的新突破

释放双眼，带上耳机，听听看~！

了解OpenAI Sora模型的文本生成视频技术，以及李一舟的AI课程销售情况。探讨AI技术在普及过程中的挑战和发展方向。

前言

Sora横空出世之后，李一舟上了热搜。一张中美“两大AI巨头”图片在网上热传，图中二人分别为OpenAI的首席执行官萨姆奥特曼和李一舟，这张图疑似“内涵”李一舟。有媒体引用一则数据称，“据飞瓜数据显示，李一舟售卖的AI课《每个人的人工智能课》一年内卖出约25万套，销售额约5000万。”近几天，关于李一舟的争议可谓一波接一波。

OpenAI Sora模型：文本生成视频的新突破
有人说：“中国任何一家估值几十亿上百亿的大模型公司，2023年的营收水平大概率比不过这位抖音卖课的李博士，有点魔幻。”

普通人学习AI、使用AI的门槛真的那么高吗？不见得。原因种，种AI的热潮让大众盲目，落后就要挨打的观念也是原因之一，并且，从哪里获取AI、如何学习AI就像寻宝一样困难。

初识Sora

继ChatGpt3.5到4.0PlusOpenAI 在2024年2月16日正式宣布推出文本生成视频的大模型 Sora:

官网：openai.com/sora

OpenAI Sora模型：文本生成视频的新突破

OpenAI的官网介绍称，使用这款模型可以用文本生成长达一分钟的视频，视频可具有多个角色、特定类型的运动、精确主题和背景细节等复杂场景。

sora原理

Sora要解决的任务其实非常好理解，就是给定一段文本，模型需要根据该文本生成相应的视频，简单说就是text-to-video（t2v）。t2v本身并不是一个新问题，很多厂商都在研究t2v模型，只是当前的t2v模型生成的视频普遍质量较差，很难到达工业应用级别。在Sora出现前大家的普遍认知是：t2v是一个很难的任务，工业级别t2v模型（或者说能真正实用的t2v模型）短时间内应该很难实现。然而，OpenAI又又又一次打了所有人的脸，Sora的发布意味着，这一天已经来了。

基于Transformer架构

简单描述Sora训练建模过程，就是：将原始视频通过一个视觉编码器（visual encoder）编码到隐空间（latent space）形成隐时空块（spacetime latent patches），这些隐时空块（结合text信息）通过transformer做diffusion [2, 3, 4]的训练和生成，将生成的隐时空块再通过视觉解码器（visual decoder）解码到像素空间（pixel space）。所以整个过程就是：visual encoding -> latent diffusion with diffusion transformer (DiT) [4] -> visual decoding。

扩散模型和训练稳定性

Sora模型采用了扩散模型的方法，与传统的GAN模型相比，具有更好的生成多样性和训练稳定性。扩散模型通过逐步消除噪声来生成视频，这样可以有效地提高生成的视频质量。同时，通过采用扩散模型，Sora还能够生成更加逼真的视频场景。

Sora可以灵活地采用不同时长、分辨率和长宽比的视频

OpenAI发现之前的方法大多采用固定尺寸的视频（比如4s的256×256视频）去训练模型，和现实中任意长度、长宽比有较大gap，而采用原始尺寸的视频训练模型效果更好。得益于Sora采用的transformer结构，Sora可以输入任意多个visual patches（初始为noise patches），即可生成任意尺寸的视频。

生成视频的数据处理和压缩

生成视频需要处理大量的数据，对于这一问题，Sora模型采用了数据处理和压缩的技术。通过对视频数据进行处理和压缩，Sora能够在保持视频质量的同时，减少存储空间的占用。

视频质量和逼真度

Sora模型在生成视频的过程中，注重保持视频质量和逼真度。通过采用Transformer架构和扩散模型的方法，Sora能够生成更加连贯、且具有很高逼真度的视频场景。这使得Sora在应用领域具有广泛的潜力，比如可以用于影视制作、游戏开发等方面。

参考链接：www.openai.com/research/so…

sora作品展示

案例1：

1.Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

翻译：一位时尚的女性走在东京街头，周围是温暖闪亮的霓虹灯和活力四射的城市标识。她穿着一件黑色皮夹克，一条长长的红色连衣裙，搭配黑色靴子，并背着一个黑色手提包。她戴着墨镜，涂着红色口红。她步履自信，悠然自得地走着。街道潮湿而反光，呈现出丰富多彩的灯光的镜面效果。许多行人在街上走动。
OpenAI Sora模型：文本生成视频的新突破

案例2：

2.Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.

翻译：几只巨大的长毛猛犸象踏过一片雪白的草地，它们长长的毛发在微风中轻轻飘动着，远处覆盖着雪的树木和雄伟的雪山，午后的光线下有些薄云，太阳高悬在远方，营造出温暖的光芒。低角度的摄影视角令人惊叹，捕捉到了这些大型毛茸茸的哺乳动物，画面景深感强烈。

OpenAI Sora模型：文本生成视频的新突破

案例3：

6.Prompt: The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.

翻译：摄像机跟随一辆白色老式SUV，顶部有黑色行李架，它加速通过一条陡峭的土路，周围是松树，地势陡峭，车轮卷起了尘土，阳光照射在SUV上，它沿着土路飞驰，给场景增添了温暖的光芒。土路在远处轻轻弯曲，看不到其他车辆。路边的树是红杉，绿色的植物点缀其中。汽车从后方的镜头中轻松地跟随着曲线，使其看起来好像在崎岖的地形中轻松驾驶。土路周围是陡峭的山丘和山脉，天空晴朗，偶有薄云飘过。

OpenAI Sora模型：文本生成视频的新突破

Sora应用前景

视频创作：用户可以根据文本生成高质量视频；
扩展视频：可以在给定的视频或图片基础上，继续向前或向后延申视频；
Video-to-video editing：例如将SDEdit [7]应用于Sora，可以很容易改变原视频的风格；
视频连结/过渡/转场：可以将两个视频巧妙地融合到一起，使用Sora在两个输入视频之间逐渐进行插值，从而在具有完全不同主题和场景构成的视频之间创建无缝过渡；
文生图：图像可以视为单帧的视频，故Sora也能实现文生图。

可以预见的是，当sora正式开放之后，短视频平台将会涌现非常多的sora生成的视频，又会有许多普通人收获一桶金。

OpenAI Sora模型：文本生成视频的新突破

Sora带来的行业巨震

短视频内容创作可能进入新的时代：Sora可以提供丰富的视频素材；
视频剪辑和编辑：Sora具备相关应用能力；
更逼真的数字人：用户可以得到自己的“理想型”；
娱乐化：从图像一键生成视频；
游戏行业：游戏引擎受到Sora挑战；
图形学：未来可能不复存在。

sora使用教程

Tips：

目前 OpenAI还未开放 sora 使用，还在内测阶段，根据文生图模型 DALL·E 案例，一定是先给 ChatGPT Plus 付费用户使用，需要注册或者升级 GPT Plus 可以看这个教程: 一键升级 ChatGPT Plus 喂饭教程

使用Sora前的准备工作

在开始之前，确保您已经拥有了OpenAI账目，并获得了Sora的访问权限。准备好您想要转化成视频的文本描述，记住越详细越好。

(没有chatgpt账号的朋友传送门：www.chatgptbom.com/new-chatgpt…)

Sora使用步骤一：文本描述

1.描述视频内容：首先，您需要对想要在视频中展示的内容进行清晰的描述。这包括场景、人物、动作以及整体基调。提供的细节越详细，Sora就能更好地理解您的愿景。

2.完成文本描述和自定义设置：在完成文本描述后，您可以点击“生成视频”按钮。Sora将开始处理您的请求，这个过程可能需要几分钟时间。

Sora使用步骤二：生成视频

预览以及编辑视频：视频生成后，您可以对其进行预览。如果需要，您还可以灵活地编辑和更改生成的场景，以确保最终视频符合您的期望。

Sora 常见问题

目前的视频生成模型普遍生成的motion都不太好，最简单的例子就是“人走路”，大部分模型无法生成连贯的、长时间的、合理的人行走的过程。而Sora生成的结果在连贯性、合理性上相比之前的模型都有着断代的领先。那到底是什么促使了这样的结果呢？是模型尺寸的scale up吗？需要scale up到什么size？还是数据的收集和清洗呢？以及要做到什么程度呢？

它不能准确地模拟许多基本相互作用的物理过程，例如玻璃破碎。其他交互过程（例如吃食物）也不总是能正确预测。我们在登陆页面中列举了模型的其他常见故障模式，例如长时间样本中出现的不连贯性或对象的凭空出现。”

相信上述问题会在sora正式发布时得到解决。

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

OpenAI Sora模型：文本生成视频的新突破

前言