11月17日，Meta正式宣布了两项引人注目的新功能：Emu Video和Emu Edit，分别是基于文本的视频和图像生成应用。在今年的Meta Connect大会上，Meta就预告了Emu的到来。

Emu Video是一个扩散模型驱动的文生视频模型，能够基于纯文本指令生成高达512x512分辨率的4秒高清视频。相较于Runway的Gen-2和Pika Labs的产品，Emu Video在视频生成质量和文本忠实度方面表现更优。

Emu Edit则是一个灵活的图像编辑工具，支持基于文字的本地和全局图像编辑，包括背景更改、颜色和几何变换等，能够精准地遵循指令，确保图像的相关像素保持不变。这些工具不仅提高了创造力，也为自我表达提供了新的途径。

草坪变成了沙漠。

Emu Video：Meta的突破性视频生成应用

Emu Video是Meta新推出的一款创新性视频生成应用，其基于扩散模型，能够将文本指令转化为动态视频。这款应用采用了独特的“因子化”视频生成方法，将视频制作过程分为两个阶段：首先根据文本提示生成静态图像，然后利用这些图像和文本生成视频。

这个方法就像在生成脚本后，先制作分镜图，然后再制作视频。

这种方法的优势在于它保留了文本到图像模型的视觉多样性和风格，同时还能生成高分辨率的视频。Emu Video能够生成512x512分辨率、四秒长、每秒16帧的视频，实现了与直接的文本到视频（T2V）方法相比的显著性能提升。与传统需要多个模型级联的方法相比，Emu Video的简易性显著，仅需两个扩散模型即可实现。

从现实到奇幻、动漫，Emu Video都可以生成。

波浪撞击孤独的灯塔，阴森的光线。

肆虐深绿森林的野火。

从摩天大楼的高处看阳光穿过云层。

一群蚂蚁在地板上吃着一块面包。

一只蘑菇坐在沙发上喝着一杯咖啡，逼真的照片效果。

一匹有着黄金独角的雄伟白色独角兽在水下慢动作行走。

一个雪人在威尼斯贡多拉船上。

一个机器人DJ正在播放唱盘，在未来派东京屋顶的暴雨中，赛博朋克风格的夜晚，科幻、奇幻、复杂、优雅、霓虹灯光、高度详细、概念艺术、柔和光线、平滑、清晰焦点，插图。

两只独角兽在守护着他们的宝宝独角兽，它在婴儿床里，动漫风格。

Emu Video在视频质量和文本忠实度方面均表现出色，其生成的视频在质量上的胜率高达91.8%，在文本忠实度上的胜率为86.6%，超越了包括Pika Labs和Gen-2在内的所有竞争对手。

此外，Emu Video不仅可以生成基于文本的视频，还能根据用户提供的图像和文本生成视频，甚至能够“动画化”用户提供的图像。在这些领域，Emu Video的生成作品受到了更高的用户偏好，优于谷歌的Imagen Video、英伟达的PYOCO和Meta自家的Make-A-Video，比以往的工作更受欢迎。

你可以在Emu Video的官网创作属于自己的动画，不过当前只能在几百种组合中选择，暂不支持自定义文字生成视频。

Emu Edit：通过简单指令实现精确图像编辑

Emu Edit 是 Meta 最新推出的多任务图像编辑模型，旨在通过指令简化和增强图像操作任务。该模型能够处理从局部到全局的编辑任务，如背景添加/移除、颜色和几何变化，同时确保与指令无关的图像部分保持不变。Emu Edit 通过将计算机视觉任务纳入图像生成模型，实现了对图像编辑过程的前所未有的控制。

恩爱的两只小狗。

不断变化的车与背景。

一杯果汁逐渐变成了金杯。

写实的风景变成了奇幻的世界。

为了实现这一目标，Meta 的团队开发了一个包含1000万个合成样本的大型数据集，用于训练 Emu Edit。这些样本包含输入图像、任务描述、目标输出图像，涵盖了各种编辑任务。这种方法使得 Emu Edit 能够在定性和定量评估中优于现有方法，特别是在执行复杂和详细的编辑指令时。

Emu Edit 的特点包括：

多任务处理能力：涵盖区域编辑、自由形式编辑和其他计算机视觉任务。

精确编辑：模型专注于仅修改与编辑请求相关的像素，保持其他像素不变。

创新的训练方法：利用包含1000万个合成样本的大型数据集，提高了模型的性能和忠实度。

强大的生成能力：能够泛化到新任务，如图像修补、超分辨率等。

易于使用：用户可以通过简单的文本指令实现复杂的图像编辑。

Meta近期发布的Emu Video和Emu Edit，分别为文生视频和图像编辑应用，开辟了创意表达的新途径。这些工具不仅为普通用户提供了生成动画贴纸、GIF等简单的内容创作方式，还能够使用户轻松编辑照片和图像。文生图和文生视频变得更加可控，这无疑可以帮助所有人更好地创作和表达。

如果你觉得这篇文章对你有所帮助，欢迎点赞、收藏以及转发分享。同时，请关注我，以获取更多关于人工智能的最新资讯和见解！

参考：

https://ai.meta.com/blog/emu-text-to-video-generation-image-editing-research/

https://emu-video.metademolab.com/

https://emu-edit.metademolab.com/

https://emu-edit.metademolab.com/assets/emu_edit.pdf

https://emu-video.metademolab.com/assets/emu_video.pdf

网站首页 > 开源技术正文

超越Gen-2，Meta新突破:Emu Video的动态世界和Emu Edit的图像魔法

Emu Video：Meta的突破性视频生成应用

Emu Edit：通过简单指令实现精确图像编辑

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 开源技术 正文

超越Gen-2，Meta新突破:Emu Video的动态世界和Emu Edit的图像魔法

Emu Video：Meta的突破性视频生成应用

Emu Edit：通过简单指令实现精确图像编辑

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 开源技术正文

取消回复欢迎你发表评论: