中国AIGC产业联盟 x 无界AI:中国AIGC文生图产业白皮书(ai产业图谱 易观)

人工智能生成内容(AIGC)风靡全球

AIGC 就在身边:新西湖、古良渚、古温州

AI“新西湖”全名为《新西湖繁盛全景图》,是由人类画师与AIGC共同参与完成的。它主要利用了三种主流的AI绘画技术:线稿上色(controlnet Lineart)、无限拓展(Outpainting)、建筑模型训练(Dreambooth & Lora)等。创作方将该作品的使用权无偿捐赠给了杭州市贸易促进会、中国国际动漫节执行委员会、杭州西湖风景名胜区管委会、杭州万事利丝绸文化股份有限公司、杭州灵伴科技有限公司(Rokid)等多家单位和企业,以共同创作和推广杭州文化,共享AI作品版权。

AI“古温州”,以温州朔门古港遗址的资料为基础,以“千年商港,未来温州”为主题,利用AI工具描绘了古港遗址的繁华景象,被形容为“东方威尼斯”。2023年3月29日,这幅图片在温州日报上刊登,成为温州日报“商周刊·文博”板块元宇宙主题报道的亮点。

尽管这个案例很小,但可以从中窥见一斑。从2022年到2023年,国内的人工智能绘画产业正是从这样微小的案例开始了引人注目的产业应用浪潮,从最初的静态图片发展到复杂、交互式的人工智能绘画产业应用场景。

2022 遇见 AIGC 的序章:AI 文生图

2022 年春天,国内掀起了AI艺术的热潮,这是因为海外的A技术在图像生成领域取得了革命性的进步。以Disco Diffusion、Stable Diffusion、Midjourney等为代表的扩散模型在数字艺术领域大放异彩!这一关键时刻早于后来火爆的ChatGPT和大模型(LLM)的风潮。因此,可以说国内第一批参与AIGC活动的用户群主要来自于AI绘画领域。

AI 文生图的艺术质量呈现出指数级进化速度

故事发生在2022年春天,Disco Diffusion的开源项目为AI绘画开启了新的时代。

 2022 年 4、5 月份:AI 绘画只擅长抽象之美或者色彩美学,以令人“眼花缭乱”的色彩涂抹构图向世人展 示出 AI 艺术的别样魅力。这段时期人们常用的工具是 Disco Diffusion 以及Midjourney 初代版本。

 在2022年的4、5月份,AI绘画展现了其独特的魅力,擅长表现抽象之美和色彩美学,以令人眼花缭乱的色彩涂抹构图吸引了世人的目光。在这段时间里,人们常常使用的工具是Disco Diffusion和Midjourney的初代版本。

 在2022年的6、7、8月份,AI绘画将集中突破绘画的逻辑性和质量,逐步实现写实并创作具有艺术性的作品。这一阶段的主要工具代表是Midjourney

 2022 年 9 月份:AI 绘画领域的重要开源项目Stable Diffusion受到社区的热烈关注,因其低成本、高质量、高逻辑性、强大的通用绘制能力以及快速生成等优势,迅速占领市场。AI 绘画的艺术质量和逻辑能力开始呈现“飞轮式”发展的趋势,同时Midjourney 也开始采用其开源技术。

 2022 年 10、11 月份:AI 绘画的第一个现象级潮流“二次元模型”横空出世,以 NovelAI等开源产品和力量为突出代表,进一步蔓延到整个Stable Diffusion社区,更多的开源模型和产品加入到这个队伍中,生态力量开始形成。二次元模型的高质量性和现实影响力也令世人展开了对 AI 绘画版权的争议。11 月份,国内 AI 绘画第一波大浪潮启动,抖音迅速推出的“抖音AI 绘画(二次元)”流量成功辐射数以千万计网民,国内第一波千万级 AI 绘画用户群形成。  2022 年 12 月份:紧接着二次元浪潮,人们仿佛打开了“通往异次元的大门”,开始让三次元、2.5 次元照进 AI 绘画,于是新一波浪潮“ AI 真人模型”形成。传统互联网上充斥着大量由AI 生成的“美女”、“真实场景”、“平行时空新闻”等新形态内容。与此同时,闭源力量Midjourney 也几近 AI 绘画的艺术巅峰,各行业的大量设计师与内容工作者群体开始用 Midjourney 生成极高质量且满足现实生产需求的 AI 图片。

从2023年至今,人工智能绘画在高质量、通用逻辑能力、细节完美度以及精准控制方面已经开始广泛渗透到各行各业的生产与消费过程中。各个产业以及互联网上都充斥着由人工智能生成的内容。人们逐渐形成了对人工智能广泛赋能产业的共识。Stable Diffusion生态力量和Midjourney产品力成为当下人们唯一的选择。

2023 年 AI 文生图“侵蚀”的商业版图:实用性 AI 绘画时代到来

我们在2022年曾预测,到了2023年,大量的AIGC内容将在互联网上充斥,当人们在刷抖音或者小红书时,很可能会无意中浏览到AIGC内容,占比可能达到5~10%;以小红书平台为例,他们会将疑似由AI生成的内容标注为“疑似包含AI创作信息,请注意甄别真实度”,以提醒用户警惕。这一时期,泛娱乐场景成为AI文生图商业化的“第一阵地”。

面对人工智能绘画一年来指数级的进化速度,2023年人工智能绘画正式进入“全面商用”时代。在多样性的艺术领域冲击多样性的商业行业的同时,受到流量平台等虚拟内容经济的支持,数以千万甚至上亿的互联网用户群体深受其影响。其中,“摄影模型”和“真人模型”等代表着“真实世界模型”,对现实世界产生了显著的影响,包括商业应用、广泛的娱乐消费以及一些负面影响。

AI 文生图模型阵营及简史

 一切都始于 CLIP 开源,CLIP 是一个通过自然语言监督有效地学习视觉概念的人工神经网络。通过使用 CLIP 可将文本和图像连接在一起。

CLIP(Contrastive Language–Image Pre-training)是一种用于文本和图像对照的预训练模型。该模型使用了LAION-400M数据集,该数据集包含了从互联网上收集的4亿组文本图像对。文本编码器用于提取文本特征,而图像编码器用于提取图像特征。通过对比这两种特征的相似度,AI可以“学习”文本和图像之间的匹配关系。

开源之王 中国 AIGC 文生图产业白皮书 Stable Diffusion 的模型风格化细分及其生态占比

在2022年8月,AI绘画领域最重要的开源项目Stable Diffusion正式向全球开放其模型代码、训练数据集和生产内容的版权归属协议。这一完全自由的开源运动引起了全世界的开发者、创业者、产业公司和普通爱好者的热情。在短短的半个月时间内,Stable Diffusion的谷歌搜索趋势彻底超过了著名的DALL·E,成为人们讨论AI绘画时不可忽视的话题。Stable Diffusion的开源举动也让AI巨头们感到震惊。

在2022年,Stable Diffusion的开源发布得到了两家公司的支持,分别是Stability.Ai和RunwayML。这两家公司共同推动了SD的大版本的成功。

截至2023年7月份,Stability.Ai已经将SD开源版本迭代至稳定扩散XL 1.0(SDXL 1.0)。

SD所基于的创新的“潜在空间”(Latent Space)技术将扩散模型(Diffusion Model)推向了新的高度,这是AI绘画实现大规模商业化的关键一步(与传统的像素空间相比,潜在空间使得快速生成高分辨率图像成为可能,而DALL-E2和GoogleImagen则是基于传统的像素空间)。

Stable Diffusion 重要开源技术路线:全民训练,无尽的模型生态

仅仅依靠SD官方基础版本的大模型并不足以产生丰富多彩的AI绘画体验,它只是一个基础的“通用底子”,需要更多的开发者在其之上进行更多样化、更高质量的风格化训练。因此,模型广场、精准控制和训练框架等开源模型生态开始蓬勃发展。这些生态系统可以适配各行各业的垂直模型,并且也促使了行业应用AI的场景不断涌现。

实现 AIGC 精准创作的“利刃”:ControlNet

在2023年初,Stable Diffusion生态系统的重要控制组件ControlNet正式发布,为AI绘画的发展进程提供了一条解决“精准控制”难题的完美道路。

 这个开源技术采用了一种名为“条件生成对抗网络”(Conditional Generative Adversarial Networks)的技术来生成图像。与传统的生成对抗网络不同,ControlNet允许用户对生成的图像进行精细的控制。

例如,它将传统意义上的”设计”抽象分解为AI或者计算机视野下的”线/轮廓”、”深度”、”语义”、”姿势”等众多基础原子操作。根据应用场景,灵活地组合这些基本原子和元素,实现绘制的整体可控性和对各种场景的绘制。

腾讯 AI 实验室发布的 IP-Adapter 模型为 Controlnet 生态系统带来了重要的贡献。该模型能够识别参考图的风格和内容,并生成类似的作品。此外,该模型还可以与其他控制器配合使用。

0
分享到:
没有账号? 忘记密码?