作者
罗霄 实验编程工作室
自第一幅AI画作在2018年末公开拍卖以来,生成式AI技术通过在设计、艺术领域的广泛应用,逐步进入了人们的视野。
2023年是生成式AI井喷式爆发的一年,其中尤以AI绘画为甚。在二维图像生成和后期处理方面,基本实现“一键滤镜”,在平面设计、游戏美术等商业项目的制作场景中AI绘画已是标配。动态影像方面,AI生成视频也已经初步应用在广告短片等商业项目上,在2024年或可期待生成式AI技术正式进入电影工业生产流程。三维方面,通过AI生成三维模型的技术,原型算法经过2023年一整年发展后,在2024年有望如2023年的AI绘画一样逐步进入落地阶段。现如今,AI图像生成模型得到了GPT等多模态模型的加持与助推,AI视觉艺术创作已经进入“根据自然语言描述创建图像艺术”的时期,更加接近人本身的创作状态。本文将对2023全年生成式AI图像模型的发展过程做整理和回顾。
2023年伊始,如果在AI绘画生态圈中按照模型规模和质量来评比,可以说依然保持着于2022年下半年形成的三足鼎立局面,即以Midjourney、DALL·E、Stable Diffusion为AI绘画的三大主力。
Midjourney由Midjourney同名实验室出品,本月的版本仍是2022年11月发布的V4。Midjourney V4比以往版本增加了关于生物、地点和物体方面的知识。
2022年最有名的Stable Diffusion的GUI实现(图形化创作界面),是AUTOMATIC1111版的WebUI,也是使用最广泛的Stable Diffusion创作工具。而在本月,悄悄诞生了另一套节点式Stable Diffusion界面:ComfyUI。ComfyUI通过在节点之间“连连看”的方式,实现了Stable Diffusion图像生成的“工作流”(workf low)。“工作流”是ComfyUI的精髓,它让用户在关注数据参数和生成图像结果的基础上,还去关注内部过程,引导用户下意识地去优化或改造“工作流”,带来更加多样的创造可能。
ControlNet在本月横空出世,补上了AIGC工业化的最后一块拼图。ControlNet这种神经网络架构,可对Stable Diffusion等图像扩散模型添加除了提示词之外的“精确”控制,这将AI绘画的应用场景从创意发散直接拉向了设计落地。
有了ControlNet的加持,Stable Diffusion从此在应用场景的多样性上一举超越Midjourney和DALL·E。在游戏角色设定、建筑效果图、电商模特定妆照等非常具体的场景得到广泛应用。AI绘画不再局限于2022年的概念艺术、插画等领域,开始成为各行各业中设计工作的利器。
2月AI绘画界的另一件大事,是Runway发布了AI视频创作工具Gen-1(内测版)。虽然使用Stable Diffusion、Deforum、Control-Net、EbSynth等一众开源模型和免费工具,同样可以创作AI动态影像,甚至可能比同时期的Gen-1效果更丰富、可控性更灵活,但是Runway Gen-1的使用体验如同Midjourney一样,对用户来说更加简单、易上手,无疑为AI绘画的真正破圈再添助力。
Midjourney在本月发布了V5版,更新后的AI绘画图像质量有所提升,特别在摄影风格的图像生成方面,质量大幅提升。
设计软件巨头Adobe,也终于在本月推出了Firef ly,一款在线的生成式图像创作工具。虽然从图像质量上看,Firef ly此时还没有与Midjourney、Stable Diffsuion拉开差距,但它最大的亮点是“设计安全,可放心用于商业用途”,即Adobe在Adobe Stock图像、公开发布的许可内容以及版权已过期的公共域内容上训练商业Firef ly模型,从而降低了AI生成图像在商业应用中的版权风险。
Runway在本月继续发力AI视频生成。上个月开启内测的Gen-1于本月正式上线开放,并且还发布了Gen-2(内测版)。Gen-1是以Video to Video的方式生成视频,或者说是对源视频的风格化。Gen-2则是Text to Video方式,通过提示词来生成视频;也支持Image to Video,通过一张图生成视频。这个功能一经发布,瞬间引爆了Midjourney作图、Runway Gen-2做视频的工作流。
发布于2022年8月的百度文心一格,也在本月进行了官网改版升级。
Stable Diffusion XL Beta版发布,相比Stable Diffusion 1.5版,XL具有更高水平的照片级写实能力、增强的图像合成与面部生成能力,以及更加丰富的视觉和美学效果,还支持使用更短的提示词来生成图像并实现更准确的文本意涵。此时的Stable Diffusion XL虽然还只是Beta版,但在图像质量上已经接近Midjourney V5。
meta(Facebook)在本月发布了一套图像分割模型Segment Anything,虽然它的目标不是生成,而是对图像中的物体进行分割,但将它与Stable Diffusion、ControlNet结合起来,就是一套完美的图像生成工作流。
Midjourney发布了V5.1,此次更新的默认效果与早期版本相比具有更强的美感,并且支持更加简单的提示词,更擅长准确理解自然语言提示,在图像生成中减少了不必要的伪影和边框,提高了图像清晰度,并支持使用“--tile”重复模式等高级功能。自3月份发布V5、本月发布V5.1后,Midjourney在三巨头争霸战中,已然在生成图像的质量和效果方面领先半个身位。DALL·E2仍是2022年刚发布时的水准,Stable Diffusion XL还在Beta测试中。
本月还杀出了一匹黑马——DragGAN。自2021年末Disco Diffusion开始,到2022年Midjourney、Stable Diffusion、DALL·E以来,图像生成模型的焦点基本都集中在Diffusion模型上。前些年的大热门GAN模型(生成对抗网络)已经不再是生成式AI图像生成的核心主力,转而在一些特定场景发挥作用,如某些风格迁移、超分辨率放大等。DragGAN巧妙借助GAN模型在推理时的低性能消耗(低到能“实时”生成图像),研究出一种强大的控制 GAN 生成的方法,让用户能在图像上以“拖动”的交互方式对图像进行实时更改。
本月Midjourney继续领跑,推出了V5.2,可产生更详细、更清晰的结果,更好的颜色、对比度和构图,以及更好的提示词理解能力。
Runway Gen-2正式对外开放,因为其操作简单、默认效果好,而掀起了AI视频热潮。虽然对单视频的时长有严格限制,但它已经在TVC广告、宣传片等商用场景中实现了实质性落地。
7月,Stable Diffusion XL 1.0版正式发布,终于在图像效果方面又一次追平了Midjourney。
AI视频生成工具Pika Labs本月上线,Ruwnay Gen-2迎来了最大的竞争对手。Pika Labs同Midjourney一样,也依托于Discord平台,用户在其中输入提示词或参考图,就可以生成精美的视频,该功能和Runway Gen-2几乎完全重合。
开源动画生成框架AnimateDiff发布,它可以帮助Stable Diffusion等图像模型生成时间上平滑的动画并保留多样性。借助开源社群的力量,AnimateDiff可以在Stable Diffusion WebUI、ComfyUI中使用。
百度的文心一格上线了“二次编辑”功能,类似Stable Diffusion或DALL·E中的Inpaint或局部重绘效果,能够更加精准地满足创作者的需求。
距离DALL·E2的发布已经过去了一年,这一年里Midjourney在图像质量上不断追求极致,而Stable Diffusion的开源生态遍地开花,唯独DALL·E2停滞不前,看上去似乎OpenAI把精力都投在了ChatGPT中。终于在本月,DALL·E3重磅发布(10月正式对公众开放)。
DALL·E3除了图像质量大幅度提升之外,更是直接集成在ChatGPT中以上下文对话的形式来使用,终于落实了一年前的介绍,“根据自然语言的描述创建逼真的图像和艺术”。直接通过自然语言(支持中、英文等多国语言)进行图像创作,这是在之前基于特定格式提示词的创作形式上,又一次人机交互的飞跃。
至此,AI绘画三巨头重新站在同一水平线上且各具特色。在简单提示词下,Midjourney生成的图像效果仍是最好的;Stable Diffusion借助丰富的开源生态,在需要个性化定制的设计场景中最具落地性;DALL·E3则与ChatGPT相互成就,进一步拉低AI绘画的使用门槛。
Midjourney于本月推出了新的放大功能,支持2倍和4倍放大。这同样是个实用功能,之前需要在第三方放大软件如Topaz Giga Pixel中,或者在Stable Diffusion WebUI中使用Upscaler进行超分辨率放大,现在可以一条龙式地在Midjourney中完成。
Adobe在10月召开的Adobe Max 2023大会上,发布了Firef ly Image 2 Model,它在第一代的基础上做了改进,具有更多世界知识,生成更出色的人物肖像、更加艳丽的色彩和动态范围等。
此外,Adobe还发布了Firef ly Vector Model,宣传其是世界上第一个矢量图生成式AI模型,可生成设计人员可以编辑的矢量图,并随后嵌入Adobe Illustrator中。
上述产品更新放在以往已经算是惊艳,但本月的热门当属开源的LCM(Latent Consistency Models),它只需通过几步推理即可生成高分辨率的图像,从而把Stable Diffusion图像生成带到了“实时生成”的门槛前。
接近年底,AI绘画竞赛进入了白热化阶段。视频战场上,Runway本月更新了Gen-2,在视频保真度和一致性方面做了提升。推出了运动笔刷和Gen-2风格预设功能,并更新了相机控制。Pika Labs 1.0发布(内测邀请制),生成的视频效果惊人,与Runway相互领跑。Stability AI发布了Stable Video Diffusion,专门用于视频生成,以开源模型挑战Runway与Pika Labs。阿里云也于本月发布了I2VGen-XL,一套高质量的AI视频生成模型。
标准图像生成方面,Midjourney本月上线了Style Tuner(风格微调)功能,有点类似ControlNet的Reference-Only功能,通过一张图指定后续生成图像的风格,而无需训练专门的风格模型。因为Midjourney本身无法由用户直接训练模型,所以Style Tuner一定程度上补充了Midjourney的精细化调整能力。
10月份LCM刚刚举起了Diffusion图像“实时”生成的大旗,本月Stability AI就连发两弹,在Stable Video Diffusion发布后,又发布了SDXL Turbo-“A Real-Time Text-to-Image Generation Model”实时文生图生成模型。并且通过数据验证,直言击败了LCM-XL,火药味十足。
在竞争激烈的11月,微软Bing Chat正式更名为Copilot,且Copilot内集成了OpenAI最新的ChatGPT 4的能力以及DALL·E 3。虽然核心都是OpenAI的产品,但微软的入口对广大用户是利好的,直接从Edge浏览器就可以访问,并且在使用对话功能时,除了GPT 4外,还能结合Bing搜索,对于当前发生的不在GPT训练数据集中的事情或知识,这是很好的补充。与此同时,微软还将把Copilot嵌入Off ice系列中。
Google终于进入AI绘画领域,于本月发布了Imagen 2,其不但拥有Midjourney级别的图像质量,还像DALL·E3结合ChatGPT一样支持自然语言描述,这得益于Google不久前发布的直接对标ChatGPT的Gemini。在文生图方面,人脸与手指一直被当作检验图像是否是AI绘制的窍门,而Imagen 2 放出的图片似乎大大改善了这个问题。以Google如此强势的姿态来看,AI绘画三巨头的局面很可能在2024年开始变成四强争霸。
Midjourney V6也于本月发布。新版本对提示词尤其长提示词的理解更为准确,改进了生成图像的连贯性和模型的知识面,改进了图像提示词(Image prompt),改进了在图像中绘制文字的能力,等等。V6 是Midjourney在AI超级集群上从头开始训练出的第三个模型,截至目前已经酝酿了9个月。
Stability AI也赶在最后一个月发布了Stable Zero123,可从单个图像生成高质量3D物体。
篇幅所限,本生成式AI图像模型年报没有将3D生成编入,其实2023年3D生成的发展,一如2022年的AI绘画,也在蓄势待发。经历了2023年大语言模型和生成式AI图像模型的飞速发展,有理由相信在2024年,生成式AI图像模型将迎来自然语言描述、多模态实时交互、3D内容生成、AI影像制作等全方位爆发,真正成为可靠的生产力。
责任编辑:杨梦娇
本文图片由作者提供
为阅读方便,略去引注
相关阅读:
点击以下链接即可阅读
《艺术学研究》稿约
欢迎订阅2024年《艺术学研究》
《艺术学研究》2023年第5期文章荐读
《艺术学研究》2023年第4期文章荐读
《艺术学研究》2023年第1期文章荐读