ubxnzj

http://fabua.ksxb.net/comubxnzj/

相关列表

文章列表

暂无文章

推荐文章

联系方式

联系人：王先生
电话：13419658026

首页 > 文章中心

罗霄｜ 2023生成式AI图像模型年报

发布时间：2024-12-16 浏览次数：26 返回列表

作者

罗霄｜ 2023生成式AI图像模型年报

罗霄实验编程工作室

原文刊于《艺术学研究》2024年第1期

自第一幅AI画作在2018年末公开拍卖以来，生成式AI技术通过在设计、艺术领域的广泛应用，逐步进入了人们的视野。

2023年是生成式AI井喷式爆发的一年，其中尤以AI绘画为甚。在二维图像生成和后期处理方面，基本实现“一键滤镜”，在平面设计、游戏美术等商业项目的制作场景中AI绘画已是标配。动态影像方面，AI生成视频也已经初步应用在广告短片等商业项目上，在2024年或可期待生成式AI技术正式进入电影工业生产流程。三维方面，通过AI生成三维模型的技术，原型算法经过2023年一整年发展后，在2024年有望如2023年的AI绘画一样逐步进入落地阶段。现如今，AI图像生成模型得到了GPT等多模态模型的加持与助推，AI视觉艺术创作已经进入“根据自然语言描述创建图像艺术”的时期，更加接近人本身的创作状态。本文将对2023全年生成式AI图像模型的发展过程做整理和回顾。

1月

2023年伊始，如果在AI绘画生态圈中按照模型规模和质量来评比，可以说依然保持着于2022年下半年形成的三足鼎立局面，即以Midjourney、DALL·E、Stable Diffusion为AI绘画的三大主力。

Midjourney由Midjourney同名实验室出品，本月的版本仍是2022年11月发布的V4。Midjourney V4比以往版本增加了关于生物、地点和物体方面的知识。

2022年最有名的Stable Diffusion的GUI实现（图形化创作界面），是AUTOMATIC1111版的WebUI，也是使用最广泛的Stable Diffusion创作工具。而在本月，悄悄诞生了另一套节点式Stable Diffusion界面：ComfyUI。ComfyUI通过在节点之间“连连看”的方式，实现了Stable Diffusion图像生成的“工作流”（workf low）。“工作流”是ComfyUI的精髓，它让用户在关注数据参数和生成图像结果的基础上，还去关注内部过程，引导用户下意识地去优化或改造“工作流”，带来更加多样的创造可能。

2月

ControlNet在本月横空出世，补上了AIGC工业化的最后一块拼图。ControlNet这种神经网络架构，可对Stable Diffusion等图像扩散模型添加除了提示词之外的“精确”控制，这将AI绘画的应用场景从创意发散直接拉向了设计落地。

有了ControlNet的加持，Stable Diffusion从此在应用场景的多样性上一举超越Midjourney和DALL·E。在游戏角色设定、建筑效果图、电商模特定妆照等非常具体的场景得到广泛应用。AI绘画不再局限于2022年的概念艺术、插画等领域，开始成为各行各业中设计工作的利器。

2月AI绘画界的另一件大事，是Runway发布了AI视频创作工具Gen-1（内测版）。虽然使用Stable Diffusion、Deforum、Control-Net、EbSynth等一众开源模型和免费工具，同样可以创作AI动态影像，甚至可能比同时期的Gen-1效果更丰富、可控性更灵活，但是Runway Gen-1的使用体验如同Midjourney一样，对用户来说更加简单、易上手，无疑为AI绘画的真正破圈再添助力。

3月

Midjourney在本月发布了V5版，更新后的AI绘画图像质量有所提升，特别在摄影风格的图像生成方面，质量大幅提升。

设计软件巨头Adobe，也终于在本月推出了Firef ly，一款在线的生成式图像创作工具。虽然从图像质量上看，Firef ly此时还没有与Midjourney、Stable Diffsuion拉开差距，但它最大的亮点是“设计安全，可放心用于商业用途”，即Adobe在Adobe Stock图像、公开发布的许可内容以及版权已过期的公共域内容上训练商业Firef ly模型，从而降低了AI生成图像在商业应用中的版权风险。

Runway在本月继续发力AI视频生成。上个月开启内测的Gen-1于本月正式上线开放，并且还发布了Gen-2（内测版）。Gen-1是以Video to Video的方式生成视频，或者说是对源视频的风格化。Gen-2则是Text to Video方式，通过提示词来生成视频；也支持Image to Video，通过一张图生成视频。这个功能一经发布，瞬间引爆了Midjourney作图、Runway Gen-2做视频的工作流。

发布于2022年8月的百度文心一格，也在本月进行了官网改版升级。

4月

Stable Diffusion XL Beta版发布，相比Stable Diffusion 1.5版，XL具有更高水平的照片级写实能力、增强的图像合成与面部生成能力，以及更加丰富的视觉和美学效果，还支持使用更短的提示词来生成图像并实现更准确的文本意涵。此时的Stable Diffusion XL虽然还只是Beta版，但在图像质量上已经接近Midjourney V5。

meta（Facebook）在本月发布了一套图像分割模型Segment Anything，虽然它的目标不是生成，而是对图像中的物体进行分割，但将它与Stable Diffusion、ControlNet结合起来，就是一套完美的图像生成工作流。

5月‍

Midjourney发布了V5.1，此次更新的默认效果与早期版本相比具有更强的美感，并且支持更加简单的提示词，更擅长准确理解自然语言提示，在图像生成中减少了不必要的伪影和边框，提高了图像清晰度，并支持使用“--tile”重复模式等高级功能。自3月份发布V5、本月发布V5.1后，Midjourney在三巨头争霸战中，已然在生成图像的质量和效果方面领先半个身位。DALL·E2仍是2022年刚发布时的水准，Stable Diffusion XL还在Beta测试中。

本月还杀出了一匹黑马——DragGAN。自2021年末Disco Diffusion开始，到2022年Midjourney、Stable Diffusion、DALL·E以来，图像生成模型的焦点基本都集中在Diffusion模型上。前些年的大热门GAN模型（生成对抗网络）已经不再是生成式AI图像生成的核心主力，转而在一些特定场景发挥作用，如某些风格迁移、超分辨率放大等。DragGAN巧妙借助GAN模型在推理时的低性能消耗（低到能“实时”生成图像），研究出一种强大的控制 GAN 生成的方法，让用户能在图像上以“拖动”的交互方式对图像进行实时更改。

6月

本月Midjourney继续领跑，推出了V5.2，可产生更详细、更清晰的结果，更好的颜色、对比度和构图，以及更好的提示词理解能力。

Runway Gen-2正式对外开放，因为其操作简单、默认效果好，而掀起了AI视频热潮。虽然对单视频的时长有严格限制，但它已经在TVC广告、宣传片等商用场景中实现了实质性落地。

7月

7月，Stable Diffusion XL 1.0版正式发布，终于在图像效果方面又一次追平了Midjourney。

AI视频生成工具Pika Labs本月上线，Ruwnay Gen-2迎来了最大的竞争对手。Pika Labs同Midjourney一样，也依托于Discord平台，用户在其中输入提示词或参考图，就可以生成精美的视频，该功能和Runway Gen-2几乎完全重合。

开源动画生成框架AnimateDiff发布，它可以帮助Stable Diffusion等图像模型生成时间上平滑的动画并保留多样性。借助开源社群的力量，AnimateDiff可以在Stable Diffusion WebUI、ComfyUI中使用。

百度的文心一格上线了“二次编辑”功能，类似Stable Diffusion或DALL·E中的Inpaint或局部重绘效果，能够更加精准地满足创作者的需求。

8月

距离DALL·E2的发布已经过去了一年，这一年里Midjourney在图像质量上不断追求极致，而Stable Diffusion的开源生态遍地开花，唯独DALL·E2停滞不前，看上去似乎OpenAI把精力都投在了ChatGPT中。终于在本月，DALL·E3重磅发布（10月正式对公众开放）。

DALL·E3除了图像质量大幅度提升之外，更是直接集成在ChatGPT中以上下文对话的形式来使用，终于落实了一年前的介绍，“根据自然语言的描述创建逼真的图像和艺术”。直接通过自然语言（支持中、英文等多国语言）进行图像创作，这是在之前基于特定格式提示词的创作形式上，又一次人机交互的飞跃。

至此，AI绘画三巨头重新站在同一水平线上且各具特色。在简单提示词下，Midjourney生成的图像效果仍是最好的；Stable Diffusion借助丰富的开源生态，在需要个性化定制的设计场景中最具落地性；DALL·E3则与ChatGPT相互成就，进一步拉低AI绘画的使用门槛。

Midjourney于本月推出了新的放大功能，支持2倍和4倍放大。这同样是个实用功能，之前需要在第三方放大软件如Topaz Giga Pixel中，或者在Stable Diffusion WebUI中使用Upscaler进行超分辨率放大，现在可以一条龙式地在Midjourney中完成。

10月

Adobe在10月召开的Adobe Max 2023大会上，发布了Firef ly Image 2 Model，它在第一代的基础上做了改进，具有更多世界知识，生成更出色的人物肖像、更加艳丽的色彩和动态范围等。

此外，Adobe还发布了Firef ly Vector Model，宣传其是世界上第一个矢量图生成式AI模型，可生成设计人员可以编辑的矢量图，并随后嵌入Adobe Illustrator中。

上述产品更新放在以往已经算是惊艳，但本月的热门当属开源的LCM（Latent Consistency Models），它只需通过几步推理即可生成高分辨率的图像，从而把Stable Diffusion图像生成带到了“实时生成”的门槛前。

11月

接近年底，AI绘画竞赛进入了白热化阶段。视频战场上，Runway本月更新了Gen-2，在视频保真度和一致性方面做了提升。推出了运动笔刷和Gen-2风格预设功能，并更新了相机控制。Pika Labs 1.0发布（内测邀请制），生成的视频效果惊人，与Runway相互领跑。Stability AI发布了Stable Video Diffusion，专门用于视频生成，以开源模型挑战Runway与Pika Labs。阿里云也于本月发布了I2VGen-XL，一套高质量的AI视频生成模型。

标准图像生成方面，Midjourney本月上线了Style Tuner（风格微调）功能，有点类似ControlNet的Reference-Only功能，通过一张图指定后续生成图像的风格，而无需训练专门的风格模型。因为Midjourney本身无法由用户直接训练模型，所以Style Tuner一定程度上补充了Midjourney的精细化调整能力。

10月份LCM刚刚举起了Diffusion图像“实时”生成的大旗，本月Stability AI就连发两弹，在Stable Video Diffusion发布后，又发布了SDXL Turbo-“A Real-Time Text-to-Image Generation Model”实时文生图生成模型。并且通过数据验证，直言击败了LCM-XL，火药味十足。

在竞争激烈的11月，微软Bing Chat正式更名为Copilot，且Copilot内集成了OpenAI最新的ChatGPT 4的能力以及DALL·E 3。虽然核心都是OpenAI的产品，但微软的入口对广大用户是利好的，直接从Edge浏览器就可以访问，并且在使用对话功能时，除了GPT 4外，还能结合Bing搜索，对于当前发生的不在GPT训练数据集中的事情或知识，这是很好的补充。与此同时，微软还将把Copilot嵌入Off ice系列中。

12月

Google终于进入AI绘画领域，于本月发布了Imagen 2，其不但拥有Midjourney级别的图像质量，还像DALL·E3结合ChatGPT一样支持自然语言描述，这得益于Google不久前发布的直接对标ChatGPT的Gemini。在文生图方面，人脸与手指一直被当作检验图像是否是AI绘制的窍门，而Imagen 2 放出的图片似乎大大改善了这个问题。以Google如此强势的姿态来看，AI绘画三巨头的局面很可能在2024年开始变成四强争霸。

Midjourney V6也于本月发布。新版本对提示词尤其长提示词的理解更为准确，改进了生成图像的连贯性和模型的知识面，改进了图像提示词（Image prompt），改进了在图像中绘制文字的能力，等等。V6 是Midjourney在AI超级集群上从头开始训练出的第三个模型，截至目前已经酝酿了9个月。

Stability AI也赶在最后一个月发布了Stable Zero123，可从单个图像生成高质量3D物体。

篇幅所限，本生成式AI图像模型年报没有将3D生成编入，其实2023年3D生成的发展，一如2022年的AI绘画，也在蓄势待发。经历了2023年大语言模型和生成式AI图像模型的飞速发展，有理由相信在2024年，生成式AI图像模型将迎来自然语言描述、多模态实时交互、3D内容生成、AI影像制作等全方位爆发，真正成为可靠的生产力。

责任编辑：杨梦娇

本文图片由作者提供

为阅读方便，略去引注

相关阅读：

点击以下链接即可阅读

《艺术学研究》稿约

欢迎订阅2024年《艺术学研究》

《艺术学研究》2023年第6期文章荐读

《艺术学研究》2023年第5期文章荐读

《艺术学研究》2023年第4期文章荐读

《艺术学研究》2023年第3期文章荐读

《艺术学研究》2023年第2期文章荐读

《艺术学研究》2023年第1期文章荐读

《艺术学研究》2022年第6期文章荐读

《艺术学研究》2022年第5期文章荐读

《艺术学研究》2022年第4期文章荐读

《艺术学研究》2022年第3期文章荐读

《艺术学研究》2022年第2期文章荐读

《艺术学研究》2022年第1期文章荐读

管理入口| 返回顶部

声明：海之东岸资讯特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。