编程开源技术交流,分享技术与知识

网站首页 > 开源技术 正文

超越Gen-2,Meta新突破:Emu Video的动态世界和Emu Edit的图像魔法

wxchong 2024-06-23 19:05:45 开源技术 77 ℃ 0 评论

11月17日,Meta正式宣布了两项引人注目的新功能:Emu Video和Emu Edit,分别是基于文本的视频和图像生成应用。在今年的Meta Connect大会上,Meta就预告了Emu的到来。

Emu Video是一个扩散模型驱动的文生视频模型,能够基于纯文本指令生成高达512x512分辨率的4秒高清视频。相较于Runway的Gen-2和Pika Labs的产品,Emu Video在视频生成质量和文本忠实度方面表现更优。

Emu Edit则是一个灵活的图像编辑工具,支持基于文字的本地和全局图像编辑,包括背景更改、颜色和几何变换等,能够精准地遵循指令,确保图像的相关像素保持不变。这些工具不仅提高了创造力,也为自我表达提供了新的途径。

草坪变成了沙漠。

Emu Video:Meta的突破性视频生成应用

Emu Video是Meta新推出的一款创新性视频生成应用,其基于扩散模型,能够将文本指令转化为动态视频。这款应用采用了独特的“因子化”视频生成方法,将视频制作过程分为两个阶段:首先根据文本提示生成静态图像,然后利用这些图像和文本生成视频。

这个方法就像在生成脚本后,先制作分镜图,然后再制作视频。

这种方法的优势在于它保留了文本到图像模型的视觉多样性和风格,同时还能生成高分辨率的视频。Emu Video能够生成512x512分辨率、四秒长、每秒16帧的视频,实现了与直接的文本到视频(T2V)方法相比的显著性能提升。与传统需要多个模型级联的方法相比,Emu Video的简易性显著,仅需两个扩散模型即可实现。

从现实到奇幻、动漫,Emu Video都可以生成。

波浪撞击孤独的灯塔,阴森的光线。

肆虐深绿森林的野火。

从摩天大楼的高处看阳光穿过云层。

一群蚂蚁在地板上吃着一块面包。

一只蘑菇坐在沙发上喝着一杯咖啡,逼真的照片效果。

一匹有着黄金独角的雄伟白色独角兽在水下慢动作行走。

一个雪人在威尼斯贡多拉船上。

一个机器人DJ正在播放唱盘,在未来派东京屋顶的暴雨中,赛博朋克风格的夜晚,科幻、奇幻、复杂、优雅、霓虹灯光、高度详细、概念艺术、柔和光线、平滑、清晰焦点,插图。

两只独角兽在守护着他们的宝宝独角兽,它在婴儿床里,动漫风格。

Emu Video在视频质量和文本忠实度方面均表现出色,其生成的视频在质量上的胜率高达91.8%,在文本忠实度上的胜率为86.6%,超越了包括Pika Labs和Gen-2在内的所有竞争对手。

此外,Emu Video不仅可以生成基于文本的视频,还能根据用户提供的图像和文本生成视频,甚至能够“动画化”用户提供的图像。在这些领域,Emu Video的生成作品受到了更高的用户偏好,优于谷歌的Imagen Video、英伟达的PYOCO和Meta自家的Make-A-Video,比以往的工作更受欢迎。

你可以在Emu Video的官网创作属于自己的动画,不过当前只能在几百种组合中选择,暂不支持自定义文字生成视频。

Emu Edit:通过简单指令实现精确图像编辑

Emu Edit 是 Meta 最新推出的多任务图像编辑模型,旨在通过指令简化和增强图像操作任务。该模型能够处理从局部到全局的编辑任务,如背景添加/移除、颜色和几何变化,同时确保与指令无关的图像部分保持不变。Emu Edit 通过将计算机视觉任务纳入图像生成模型,实现了对图像编辑过程的前所未有的控制。

恩爱的两只小狗。

不断变化的车与背景。

一杯果汁逐渐变成了金杯。

写实的风景变成了奇幻的世界。

为了实现这一目标,Meta 的团队开发了一个包含1000万个合成样本的大型数据集,用于训练 Emu Edit。这些样本包含输入图像、任务描述、目标输出图像,涵盖了各种编辑任务。这种方法使得 Emu Edit 能够在定性和定量评估中优于现有方法,特别是在执行复杂和详细的编辑指令时。

Emu Edit 的特点包括:

多任务处理能力:涵盖区域编辑、自由形式编辑和其他计算机视觉任务。

精确编辑:模型专注于仅修改与编辑请求相关的像素,保持其他像素不变。

创新的训练方法:利用包含1000万个合成样本的大型数据集,提高了模型的性能和忠实度。

强大的生成能力:能够泛化到新任务,如图像修补、超分辨率等。

易于使用:用户可以通过简单的文本指令实现复杂的图像编辑。

Meta近期发布的Emu Video和Emu Edit,分别为文生视频和图像编辑应用,开辟了创意表达的新途径。这些工具不仅为普通用户提供了生成动画贴纸、GIF等简单的内容创作方式,还能够使用户轻松编辑照片和图像。文生图和文生视频变得更加可控,这无疑可以帮助所有人更好地创作和表达。

如果你觉得这篇文章对你有所帮助,欢迎点赞、收藏以及转发分享。同时,请关注我,以获取更多关于人工智能的最新资讯和见解!

参考:

https://ai.meta.com/blog/emu-text-to-video-generation-image-editing-research/

https://emu-video.metademolab.com/

https://emu-edit.metademolab.com/

https://emu-edit.metademolab.com/assets/emu_edit.pdf

https://emu-video.metademolab.com/assets/emu_video.pdf

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表