谷歌新AI系统Imagen有点强,输入文本就能生成逼真的图像

日前,谷歌宣布推出了一款新的AI系统Imagen,可以将文字描述转化为逼真的图像的人工智能技术 。
据报道,Imagen可以创建比OpenAI的人工智能工具DALL-E2更逼真和逼真的图像,不过谷歌尚未公开Imagen[1] 。
如图片所示,Imagen扩散模型可根据用户的书面提示输出绘图、油画、CGI 渲染等 。

谷歌新AI系统Imagen有点强,输入文本就能生成逼真的图像

文章插图
注:图片来自Imagen官网截图
那么Imagen 是如何工作的?
Google Imagen 官方网站还解释这种人工智能技术的工作原理,首先分析用户输入的文本并使用T5-XXL进行编码 。嵌入在 AI 中的文本首先被转换为分辨率为64x64像素的小图像 。Imagen进一步利用文本条件超分辨率扩散模型对图像进行64×64的上采样,然后这个图像继续增长并最终形成 。
谷歌新AI系统Imagen有点强,输入文本就能生成逼真的图像

文章插图
Imagen 的开发者谷歌研究的大脑团队表示,基于变压器和图像扩散模型,Imagen实现了前所未有的真实感 。谷歌声称,对比其它模型,在图像保真度和图像-文本匹配方面,人类评估者更喜欢 Imagen 。
不过,谷歌也表示,Imagen 是在从网络上抓取的数据集上进行训练的,虽然已经过滤了很多不良内容如不雅图像、污秽语言等,但仍有大量不当的内容数据集,因此也会存在种族主义诽谤和有害的社会刻板印象 。
谷歌指出,在生成事件、物体和活动的图像时,Imagen会编码“社会和文化偏见” 。由于这些原因以及更多原因,谷歌没有公开发布 Imagen 。
谷歌新AI系统Imagen有点强,输入文本就能生成逼真的图像

文章插图

谷歌新AI系统Imagen有点强,输入文本就能生成逼真的图像

文章插图
注:图片均来自imagen官网截图
图片示例中,imagen会根据用户选中不同的关键词生成不同形象
https://imagen.research.google/
【谷歌新AI系统Imagen有点强,输入文本就能生成逼真的图像】

    经验总结扩展阅读