Sora横空出世，业内人士：开启AI发展牛顿时代，通用人工智能或在一两年内实现

极目新闻记者张秀娟

“美丽而繁华的东京正在下雪”“这个镜头要穿过繁忙的城市街道”“几个正在享受着美丽雪景而在附近购物的人们”“盛开的樱花花瓣随风起舞、落英缤纷”……

当视频博主Gabor Csellev输入上述提示语时，由OpenAI推出的模型Sora，随即制作了一段精美的短视频。2月15日，采用OpenAI文生图模型DALL—E 3强大技术，可将简短文本描述转化成长达1分钟的高清视频的模型Sora横空出世。

OpenAI官方并没有简单将其称之为视频模型，而是“世界模拟器”。“也就是说，从这一刻可拟合更多真实物理定律的数字孪生世界，走进了人类社会。”华大集团CEO尹烨认为，这开启了AI发展的牛顿时代。

“Sora的到来，让我们看到了二维乃至多维世界的模拟可能性。”业内专家表示，Sora目前还不完美，依然以二维为主。OpenAI官方也表示，Sora在很多方面还不能契合真实世界的物理特性。

Sora代表文本生成视频GPT—3时刻

极目新闻记者从目前使用Sora模型制作的视频中看到：神秘莫测的海底世界、熙熙攘攘的夏日街区和充满科技感的魔幻都市等画面，被集纳在40秒的视频之中。

OpenAI官网视频截图

据了解，Sora这款新工具，最大的特点就是可准确解释用户提供的文本输入，并生成具有各种场景和人物的高质量视频剪辑。在OpenAI提供的该工具技术报告显示，Sora除了可以将文本转化为视频，还能接受其他类型的输入提示，如已经存在的图像或视频。这使得Sora能够执行广泛的图像和视频编辑任务，如创建完美的循环视频、将静态图像转化为动画、向前或向后扩展视频等。

在英伟达人工智能研究院首席研究科学家Jim Fan看来，Sora的诞生代表了文本生成视频的GPT—3 时刻。

然而，Sora目前的应用场景还很有限，其生成的视频常常显得“不可靠”，会出现不符合真实物理规律的地方。比如人物的左右脚时常不能清晰区分等。“这与其模型不是依靠内在的物理仿真引擎有关，这是当下这类依赖大规模数据驱动的大规模参数模型迭代的技术思路难以根除的问题。”业内专家表示。

滥用仍是最大的担忧

对于Sora的最大优势，360创始人周鸿祎表示，以往文生图、文生视频都是在2D平面上对图形元素进行操作，并没有适用物理定律。但Sora产生的视频里，它能像人一样理解坦克是有巨大冲击力的，坦克能撞毁汽车，而不会出现汽车撞毁坦克这样的情况。所以，Sora实现了对现实世界的理解和对现实世界模拟的两层能力。他表示，“一旦人工智能接上摄像头，把所有的电影都看一遍，把YouTube上和TikTok的视频都看一遍，对世界的理解将远远超过文字学习，一幅图胜过千言万语，这就离AGI(通用人工智能)真的就不远了，不是10年、20年的问题，可能一两年很快就可以实现。”

在现实层面，更多人担心技术会被滥用，生成更多的造假视频，引发一系列的伦理道德问题。OpenAI表示，Sora目前仅对少数人开放，在确保它不会被用来做坏事之前，是不会向大众开放的。

而在监管机构层面，2月15日，美国联邦贸易委员会提出了禁止使用AI工具冒充个人的规则。这也使得保护范围扩大至个体。

(来源：极目新闻)

全部导航

Sora横空出世，业内人士：开启AI发展牛顿时代，通用人工智能或在一两年内实现

相关新闻

热点资讯