阿里巴巴集团智能计算研究院出了个Animate Anyone
阿里发布的这个只需要单张图片和Openpose 动作就可以让图片动起来并保持稳定性
人物动作一直是视频生成一个比较麻烦的问题,通过动作库曲线救国也不错。而且在运动过程中图片的特征也很稳定。阿里发布Animate Anyone,AI动画新突破,人体动画丝滑生成,钢铁侠也能跳「科目三」
项目地址:https://humanaigc.github.io/animate-anyone
论文下载:https://arxiv.org/pdf/2311.17117.pdf
Controllable Image-to-Video Synthesis for Character Animation”
近日,阿里发布Animate Anyone,只需一张人物照片,结合骨骼动画,就能生成人体动画视频。
针对角色动画的新框架,利用扩散模型生成角色视频。为了保持细节特征的一致性,引入了ReferenceNet来合并详细特征。为了确保可控性和连续性,引入了一个有效的姿势指导器来指导角色的动作,并采用了一种有效的时间建模方法来确保视频帧之间的平滑过渡。本方法可以通过数据驱动的方式对任意角色进行动画制作,相比其他图像到视频的方法,其在角色动画方面表现更优。此外,本方法在时尚视频和人类舞蹈合成的基准测试中取得了最先进的结果。
人物动作难度加大,生成的视频也非常丝滑(最右边):
让梅西、钢铁侠动起来,也不在话下:
还有各种动漫小姐姐。
AI视频领域再次取得重大突破!阿里巴巴推出了一项名为”Animate Anyone”的创新项目,通过仅需一张照片即可生成令人惊叹的人体动画视频,动画效果丝滑流畅。
这一先进的技术利用了扩散模型,并引入了一个专为角色动画设计的全新框架。项目团队精心打造了ReferenceNet,采用空间注意力机制,巧妙地融合了复杂外观特征,以确保生成的动画与参考图像保持一致。
为了实现可控性和连贯性,研发团队引入了一个高效的姿态指导器,精准地引导角色的各种动作。此外,他们还采用了一种有效的时间建模方法,以确保视频帧之间的平滑过渡。相较于其他图像到视频的方法,该方法通过扩大训练数据范围,表现出色,使得任意角色都能轻松实现动画化。
“Animate Anyone”不仅在技术水平上引起广泛关注,其应用领域同样广泛。研发团队已在时尚视频合成和人类舞蹈生成等领域进行了深度评估。例如,在时尚视频合成方面,他们成功将时尚照片转化为生动逼真的动画视频;而在人类舞蹈生成方面,他们致力于在真实世界的舞蹈场景中栩栩如生地展现图像。
“Animate Anyone”项目不仅是AI在图像到视频合成方面的创新巅峰,更为未来的艺术创作、影视制作 ja已经个人娱乐开辟了全新的可能性。
**工作原理**
整个过程首先需要一张角色的图像,这可以是人类、动漫角色或具有明确特征的任何角色图像。接下来,用户提供一系列动作或姿势,这些动作可以是各种类型,例如跳舞、走路等。
技术上,这一过程涉及以下关键步骤:
1. **姿势引导:** AI系统首先分析提供的动作序列,用以指导图像中的角色如何移动。
2. **特征融合:** 系统采用先进算法(例如ReferenceNet),确保在动画过程中角色的细节特征(如面部表情、服装细节等)保持一致。
3. **视频合成:** 利用去噪UNet等技术,系统将动作和静态图像合成为一个连贯的视频序列,确保角色的动作流畅自然。
4. **注意力机制:** 在合成过程中,系统运用空间注意力、交叉注意力和时间注意力等机制,以确保视频中的每一帧都与原始图像高度一致。
这项技术的独特之处在于其通用性和高度可定制性。用户可以使用任何图像和动作序列,创造出独特、定制化的视频内容。
对于任何需要迅速、高效创建动画内容的人来说,这是一项极具价值的工具。通过这种技术,用户可以在不需要复杂的动画技能或昂贵软件的情况下,轻松制作引人入胜的动画视频。这一创新为未来的艺术和娱乐领域提供了崭新的可能性。
在最新的AI视频技术研究中,一项名为”Animate Anybody”的创新项目引起了广泛关注。该研究采用了先进的技术手段,旨在通过一系列创新步骤,实现从角色图像到高质量视频的转换,具有空间和时间一致性、高清画质以及领域无关性等显著优势。
为了保持外观一致性,该研究引入了一项名为ReferenceNet的关键技术。ReferenceNet被设计为对称的UNet结构,旨在捕获参考图像的空间细节。在UNet的各个层中,研究团队使用了空间-注意力机制,将ReferenceNet的特征巧妙地融入去噪UNet中,使模型能够在一致的特征空间中全面学习与参考图像的关系。
为了确保姿态的可控性,研究团队设计了一种轻量级姿态引导器,有效地将姿态控制信号集成到去噪过程中。此外,为了实现时间稳定性,研究引入了时间层(temporal layer),用于建模多个帧之间的关系,从而在模拟连续且平滑的时间运动过程中保留高分辨率细节。
优势
“Animate Anybody”项目在内部数据集上进行了训练,其中包括来自5K角色视频剪辑的多样化数据。研究结果在图1中展示了各种角色的动画效果。相对于以前的方法,该方法具有以下显著优势:
1. **空间和时间一致性:** 有效地保持了视频中人物外观的空间和时间一致性。
2. **高清画质:** 生成的高清视频不会出现时间抖动或闪烁等问题。
3. **领域无关性:** 能够将任何角色图像动画化为视频,不受特定领域的限制。
研究团队还在两个特定的人类视频合成基准(UBC时尚视频数据集和TikTok数据集)上进行了评估,结果显示”Animate Anybody”取得了State-of-the-Art(SOTA)的结果。此外,研究还将”Animate Anybody”方法与在大规模数据上训练的一般图像到视频方法进行了比较,结果显示在角色动画方面,”Animate Anybody”展现出卓越的能力。这一研究不仅在技术上取得了重大突破,同时也为未来的视频合成领域提供了引人注目的前景。