继ChatGPT之后,OpenAI又推出一款震惊科技圈的产品。今日凌晨,OpenAI宣布推出文生视频大模型——Sora。据介绍,Sora可以创建长达60秒的视频,具有非常详细的场景,复杂的摄像机运动,和充满活力的情感的多个角色。OpenAI震撼发布了名为Sora的首款文生成视频模型,这标志着AI视频领域将迎来翻天覆地的变革!
sora模型官网: https://openai.com/sora
首个文生视频模型Sora。据介绍,Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。
目前官网上已经更新了48个视频demo,在这些demo中,Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。
例如一个Prompt(大语言模型中的提示词)的描述是:在东京街头,一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上。
在Sora生成的视频里,女士身着黑色皮衣、红色裙子在霓虹街头行走,不仅主体连贯稳定,还有多镜头,包括从大街景慢慢切入到对女士的脸部表情的特写,以及潮湿的街道地面反射霓虹灯的光影效果。
另一个Prompt则是,一只猫试图叫醒熟睡的主人,要求吃早餐,主人试图忽略这只猫,但猫尝试了新招,最终主人从枕头下拿出藏起来的零食,让猫自己再多待一会儿。在这个AI生成视频里,猫甚至都学会了踩奶,对主人鼻头的触碰甚至都是轻轻的,接近物理世界里猫的真实反应。
主要功能和优势
Sora不仅能够根据文字指令创建逼真而富有想象力的场景,而且其生成的视频长度可达1分钟,实现了一镜到底的惊人效果。
相比于Runway Gen 2、Pika等AI视频工具仅能突破几秒的连贯性,OpenAI的Sora已经实现了史诗级的突破。
长达60秒的一镜到底视频中,女主角、背景人物之间的一致性令人惊叹,各种镜头切换自如,人物表现保持着神一般的稳定性。
Sora的问世将为用户带来前所未有的视频体验,为视频创作提供了全新的可能性。
OpenAI 的最新项目 Sora 真正颠覆了人工智能对于视频生成的认知。Sora 不仅仅是一个视频生成器,它是一种能够理解用户需求并将其转化为高质量视频的革命性工具。通过深度学习和模拟物理世界的方式,Sora 能够准确地生成用户所需的视频内容,并且具备出色的视觉质量。
Sora 的工作原理令人惊叹。它能够根据用户提供的提示,理解这些提示在物理世界中的表现方式。这意味着它不仅能够理解用户的需求,还能够将这些需求转化为在视频中看得到的实体。无论是多角色、特定类型的运动,还是特定主题和背景,Sora 都能准确地呈现出来。
该模型对语言的理解能力非常深入,因此能够精准地解释用户的提示,并生成引人注目、生动且情感丰富的角色。此外,Sora 还能够在单个视频中创建多个镜头,以确保角色和视觉风格的连贯性。
Sora 使用了一种称为扩散模型的技术。它通过一系列步骤逐渐转换视频,从一个看起来像静态噪声的视频开始,逐步去除噪声并生成最终的视频。这种方法使得 Sora 能够一次性生成整个视频,或者扩展已有视频的长度,使其更长。
类似于 GPT 模型,Sora 也采用了变压器架构,这使得它具备了卓越的扩展性能。它将视频和图像表示为称为补丁的更小数据单元的集合,通过统一数据表示的方式,Sora 能够在更广泛的可视数据上进行训练,跨越不同的持续时间、分辨率和宽高比。
Sora 的安全性也备受关注。在发布之前,OpenAI 采取了多项重要的安全措施。他们与红队成员合作,这些专家擅长处理错误信息、仇恨内容和偏见等问题,对模型进行了对抗性测试。此外,OpenAI 还开发了工具来检测误导性内容,并建立了强大的图像分类器,用于检查生成的视频以确保符合使用策略。
总的来说,Sora 的推出标志着人工智能在视频生成领域的重大进步。尽管它具有许多优点,如视频效果的时间长、多角色和多镜头等,但也存在一些缺点。然而,随着时间的推移和技术的进步,相信 Sora 将会不断改进,并为用户带来更加优质、丰富的视频体验。
Sora的工作原理类似于OpenAI的图像生成人工智能工具DALL-E。用户输入想要的场景,Sora就会返回一个高清视频剪辑。Sora还可以生成受静态图像启发的视频剪辑,并扩展现有视频或填充缺失的帧。
随着聊天机器人和图像生成器逐渐渗透进入消费者和商业领域,视频创作很可能成为生成式人工智能的下一个前沿领域。尽管这种创新将会激发人工智能爱好者的热情,但随着全球重要政治选举的临近,新技术也引发了严重的错误信息担忧。根据机器学习公司Clarity的数据显示,人工智能生成的深度假信息数量同比增长了900%。
在这一趋势下,OpenAI推出了名为Sora的视频生成人工智能工具,意在与Meta和谷歌等公司的竞争对手展开角逐。早在1月份,谷歌就宣布推出了Lumiere。此外,其他初创公司也相继推出了类似的人工智能工具,如Stability AI,该公司推出了名为Stable Video Diffusion的产品。而亚马逊也发布了“与Alexa一起创造”(Create with Alexa)项目,专门用于生成基于提示的短篇儿童动画内容。
目前,Sora仅限于生成一分钟或更短的视频。OpenAI在微软的支持下,将多模态——文本、图像和视频生成的结合——作为其提供更广泛的人工智能模型套件的目标。
OpenAI首席运营官Brad Lightcap在11月接受CNBC采访时表示:“世界是多模态的。如果你想想我们作为人类处理世界和与世界互动的方式,我们看到的东西,我们听到的东西,我们说的东西——世界比文字大得多。所以对我们来说,文本和代码作为单一的模式,单一的接口,我们可以拥有这些模型有多强大,它们能做什么,总是感觉不完整。”
截至目前,Sora仅供一小部分安全测试人员或“红队”使用,他们测试该模型在错误信息和偏见等方面的漏洞。除了在其网站上可以找到的10个样本片段外,该公司还没有发布任何公开演示,并表示将在周四晚些时候发布随附的技术论文。
OpenAI还表示,他们正在构建一个“检测分类器”,可以识别Sora生成的视频片段,并计划在其输出中包含某些元数据,以帮助识别人工智能生成的内容,这与Meta今年大选年用来识别人工智能生成的图像的方法相似。
Sora采用了扩散人工智能模型,与ChatGPT一样,它使用了谷歌研究人员在2017年提出的Transformer架构。
OpenAI在声明中写道:“Sora是能够理解和模拟现实世界的模型的基础。”