Hugging Face发布diffuser模型AI绘画库初尝鲜!( 二 )

Hugging Face发布diffuser模型AI绘画库初尝鲜!
文章插图

Hugging Face发布diffuser模型AI绘画库初尝鲜!

文章插图
Hugging Face发布diffuser模型AI绘画库初尝鲜!

文章插图
很显然它还不能生成高清的 4K 图,但是图像中的一些细节有丰富一些 。
场景与逻辑我们把场景做得复杂一点点,比如给到的文本提示中,有不同的物体和位置关系,我们看看会生成什么样的结果,提示文字为an italian person eating pizza on top of the colosseum in rome
prompt = "an italian person eating pizza on top of the colosseum in rome"images = ldm([prompt],num_inference_steps=100,eta=.3,guidance_scale=6)images['sample'][0]
Hugging Face发布diffuser模型AI绘画库初尝鲜!

文章插图
看得出来,这个简单的 diffuser 模型在很努力地复现我们文本中提到的人、斗兽场、披萨,但是对于更细节的位置关系,似乎它还没有做得非常好,这里的人并没有坐在罗马斗兽场顶部,而且斗兽场的拱门颜色和天空颜色也不完全匹配 。
更抽象的情况回到松鼠,尝试生成更抽象的图像,例如 a giant squirrel destroying a city『一只巨大的松鼠摧毁一座城市』,我们随机采样了一些结果如下,好坏参半:
prompt = "a giant squirrel destroying a city"images = ldm([prompt],num_inference_steps=100,eta=.3,guidance_scale=6)images['sample'][0]
Hugging Face发布diffuser模型AI绘画库初尝鲜!

文章插图
prompt = "a giant squirrel destroying a city"images = ldm([prompt],num_inference_steps=50,eta=.3,guidance_scale=6)images['sample'][0]
Hugging Face发布diffuser模型AI绘画库初尝鲜!

文章插图
prompt = "a giant squirrel destroying a city"images = ldm([prompt],num_inference_steps=100,eta=.3,guidance_scale=2)images['sample'][0]
Hugging Face发布diffuser模型AI绘画库初尝鲜!

文章插图
我们似乎观察到,目前这个小模型似乎很难融合两个通常相关度没那么高的概念,即『(巨型)松鼠』和『城市』 。我们从一些生成的效果不是特别好的图片可以观察出这一点,下面的结果中,要么对城市与天际线做了很好的描述却忽略了松鼠,要么对松鼠和自然环境做了很好的描述,却没有特别强的城市背景:
prompt = "a landscape image showing a giant squirrel destroying a city"images = ldm([prompt],num_inference_steps=50,eta=.8,guidance_scale=2)images['sample'][0]
Hugging Face发布diffuser模型AI绘画库初尝鲜!

文章插图
prompt = "a landscape image showing a giant squirrel destroying a city"images = ldm([prompt],num_inference_steps=50,eta=.8,guidance_scale=2)images['sample'][0]
Hugging Face发布diffuser模型AI绘画库初尝鲜!

文章插图
多次运行这些提示后,我们发现当前这个小模型下,总是在主体之间切换但很难将两者融合在一起 。
DALL-E 2的结果我们把同样的内容"a dramatic shot of a giant squirrel destroying a modern city"灌给 DALL-E 2,让它从提示做图,得到的结果如下:
Hugging Face发布diffuser模型AI绘画库初尝鲜!

文章插图
果然在更庞大的AI模型下,生成的结果更自然,也能把不同的细节关联起来 。
总结这就是 Hugging Face 新库的初尝鲜!尽管目前开源的小模型上,还有一系列的问题,但是这类模型就像一把钥匙,解锁一些令人敬畏的人工智能类人的艺术创造水平 。
短期看,这个小小的预训练模型当然无法取代 DALL-E 2、Imagen 或 Midjourney,但随着开源社区的强大,它会表现越来越好 。

经验总结扩展阅读