编程开源技术交流,分享技术与知识

网站首页 > 开源技术 正文

AI绘画基础 第六课:基础参数详解,提升你的作品质量的秘密武器

wxchong 2024-07-26 22:40:26 开源技术 12 ℃ 0 评论

在前五节课的讲解中,我们已经对Stable Diffusion有了一定的了解。作为一种强大的生成模型,Stable Diffusion能够根据正向提示词和反向提示词以及其他参数生成高质量的图像。在本节课中,我们将重点介绍Stable Diffusion的一些基础参数,以帮助大家提高图像生成的质量和效率。

一、外挂VAE模型

VAE,全称为Variational Autoencoder,中文译为变分自编码器。它可以在生成AI图片时对颜色和线条产生影响,即可以微调生成图片的颜色。有时候我们生成的图颜色比较冷、不鲜艳,这时可以使用VAE模型进行调整。即使没有安装VAE模型,仍然可以运行Stable Diffusion。现在的Stable Diffusion模型基本都内置了默认的VAE。当然,根据不同情况,有的Stable Diffusion模型作者也会推荐使用特定的VAE模型。

通过上图可以看出,未使用VAE和使用VAE模型在颜色上存在一定差异。因此,在出图时需要根据具体情况进行选择。

二、CLIP终止层数

CLIP是一种通过提示词与生成图片的相关性来引导生成的方法。在处理图像和文本关联性时,我们使用文本编码器的倒数第二层信息,也就是默认值2,因为它包含了丰富的特征信息,可以帮助我们更好地理解提示词与生成图片的相关性。例如,如果提示词是"1girl, yellow hair, blue eyes",CLIP过程就会根据这些提示词生成一张黄头发蓝眼睛的女孩的图片。不过需要注意的是,这个“CLIP终止层数”的设置可能需要根据实际需求进行调整。因此,通过适当调整CLIP终止层数,我们可以优化模型的性能,使其更好地理解和响应文本提示。

如果你对上文的理解还不够清晰,可以通过观察上图来加深理解。从图中可以看出,当值越大时,AI会更倾向于自由发挥,忽略一些提示词。因此,建议将默认值设置为2。

三、正向提示词和反向提示词

正向提示词和反向提示词是一种用于控制生成图像内容的工具。正向提示词是你想在生成的图像中出现的元素或者特性。而反向提示词则相反,它是你不希望在生成的图像中出现的元素或特性。

在正向提示词写:1girl,grey hair,blue eyes,(1女孩,灰色头发,蓝色眼睛)反向提示词写:twintails,(双马尾),生成的图片都是灰色头发蓝色眼睛的女孩子,并且不是双马尾辫子。

四、迭代步数(Steps)

在Stable Diffusion中,“迭代步数”是一个关键参数,它决定了AI将你的提示词描述绘制出来所需要的步骤数量。我们所看到的图片闪烁的过程,实际上是在进行每一步的迭代。每一次迭代都会对上一步生成的图片进行微调,以更好地满足我们的提示词要求。

在相同的提示词下,迭代步数越大,细节越丰富。然而,并非迭代步数越大越好。当迭代步数超过20后,基本没有明显差异了。此外,迭代步数越大,对显卡的负担就越重。因此,推荐将迭代步数设置在20到30之间。

五、采样方法(Sampler)

在更新后的Stable Diffusion 1.6版本中,采样器的选择范围已经扩展到了30种。这些采样器中有新的、淘汰的,有出图质量高但用时长的,也有出图速度快但质量一般的,甚至有在极低步数就可以出图的。

简单来说,采样器决定了如何进行随机采样,不同的采样器会对结果产生影响。例如,Eular a采样器的特点是生成很有创意的构图。然而,对于新手来说,可能会对这些采样方法的区别感到困惑。因此,在这里我将推荐两种采样器:DPM++ 2M Karras和Euler。这两种采样器出图质量高且稳定。

六、宽高、批次数和单批数量

这个不难理解,就是出图的宽度和高度,默认512,总批次数和单批数量就是一次生成几批图,每批多少张,默认为1。

七、提示词引导系数 (CFG Scale)

在Stable Diffusion中,"提示词引导系数"(CFG Scale)是一个比较重要的参数。可以把它想象成是一个调节器,决定了生成的图像与输入提示词的匹配程度。如果这个系数设置得过高,那么生成的图像可能会变得过于强调某些特征,而忽视了其他的细节,这可能会导致图像的质量下降。

如图所示,值过高过低都会影响出图的质量,通常来说,将提示词引导系数设置在7到11之间是一个不错的选择。

八、随机数种子 (Seed)

在Stable Diffusion中,"随机数种子"(Seed)是每张图片的唯一编码。默认值为-1,生成的图片会随机分配一个种子。如果你喜欢某张图片,可以将其种子值填入随机数种子框中,这样下次生成的图片就会与之前一样。这方便进行二次创作,点击骰子按钮会将值设置为-1,点击绿色按钮会将上次生成的图片随机种子填写到随机数种子框中。

九、图片信息

生成的图片下方会显示很多英文信息,包括使用的正向提示词、反向提示词、步数和采样器、随机数种子等信息。

十、插件和脚本

在Stable Diffusion中,我们可以安装多个扩展插件和辅助脚本来增强其功能。其中,Tiled Diffusion和Tiled VAE是一个插件,它能够将图片放大至6K分辨率,非常实用。AnimateDiff则是一个动画插件,可以生成动态的图片。

而ControlNet插件则是最为著名的一个。通过这个插件,我们可以控制图片的姿势、表情,甚至每一根手指的骨骼。该插件的作者是张吕敏,他是一位医学专业的学生,目前正在斯坦福大学攻读博士学位。尽管他是医学专业出身,但他在大学期间就发表了多篇在ICCV、CVPR、ECCV等顶级会议上的著作。此外,他还是一位非常有才华的软件开发者,开发的Style2Paints和YGOPro2(牌佬惊呼不已)都受到了广大用户的热烈欢迎。最近,他还开发了AI绘画工具Fooocus,这款工具与Stable diffusion WebUI和midjourney一样便捷易用,未来可期。

结束语

好了,亲爱的看官们,如果你觉得这篇文章对你有所帮助,那不妨动动小手,给煜煌点个赞、关注一下、转发收藏吧!毕竟,点赞关注不迷路,煜煌会持续为大家奉上更多精彩内容哦!如果你还没有关注煜煌的微信公众号【煜煌阁】,那就赶紧去关注吧,煜煌在此谢过啦,我们下期再见!!!???

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表