如今AI绘画技术的发展已经取得了令人瞩目的进步,普通的用户只需输入文本文句就能输出具体独特风格和想象力的图像。而近期一项最新的研究,似乎又使得AI在图像处理方面迎来新的突破,那就是可以直接生成单个或多个透明图层,也就是其能够实现图像分图层的功能,它的出现超越了传统的抠图技术,并在公布之后引发了广泛的关注和讨论。
这项技术名为:LayerDiffusion,它是由之前ControlNet的作者LvminZhang发布的新工具。在讲述这项技术之前有必要为大家简单介绍一下它背后的作者,因为它的前一个作品也为AI绘画提供了关键性的技术突破。在StableDiffusion诞生之初,尽管普通人可以通过简单输入文本就可以输出高质量的图片,但随着大量样本的加入,种种的问题也随之暴露而出。虽然模型本身非常的强大,但生成的图像往往不那么受用户控制,想生成一张高质量可以使用的图片往往需要大量天花乱坠的关键词来进行限制,而普通用户面临的首要问题就是无法找出合适的关键词。
那ControlNet的出现就很好的解决了这一个问题,它可以直接提前输入画面的构图、姿势等画面的深度信息,有了它的帮助,就不需要频繁的用关键词碰运气式的抽卡操作,那些手指等其他关键点的问题也迎面而解。具体深度的发展过程这里我们就不细讲了,后面有机会我们也会向大家科普一下这位在AI绘画领域中贡献颇多的大神作者。
聊回LayerDiffusion,这个项目和ControlNet一样,解决了文生图中比较实际的问题,那就是生成了透明的4通道RGBA图像,其效果丝毫不逊色于那些商业抠图的成果。除了可以生成单个的透明图像以外,还能生成多层的图像,分离开图像的元素和背景,这正是每一位作图或者抠图人士梦寐以求的理想工具。
LayerDiffusion利用大型预训练的潜在扩散模型(latentdiffusionmodel)来创造透明图像。这项技术不仅可以生成单独的透明图像,还能生成多层透明图层。LayerDiffusion项目已经在forge的扩展上可以使用,经过测试,其功能强大,不仅支持直接生成透明的图片元素,还可以在已有图片上生成与环境融合的透明图片。网上就曾有过研究调查,大多数的情况下,相比于之前的临时解决方案(例如先生成图像再进行抠图的处理),大多数人更喜欢直接生成的透明内容。
传统的抠图技术通常是基于颜色、纹理等特征进行分割,但这种方法往往会产生边缘不清晰、细节丢失等问题,尤其在处理那些半透明效果(如火焰、烟雾)或复杂边缘时遇到困难。而这项技术则可以通过深度学习模型对图像进行更加精细的分析,识别出图像中不同层次的物体和背景,并将它们分别绘制在不同的图层上。这种分图层的技术不仅可以提高图像处理的效率,还可以保留更多的细节和信息,使得处理后的图像更加逼真和自然。
尽管目前该技术的模型和部分代码已经开源,但仍然处于研究和商业化阶段。即便是在还未成熟的情况下,这一技术也已经引发了大量的关注和讨论。人们对于AI在图像处理领域的潜力充满了好奇和期待,他们希望能够看到更多类似的创新技术问世,以进一步提升图像处理的水平和效率。
除了在图像处理领域,该技术的应用还可能延伸到其他领域,如动画制作、游戏开发、虚拟现实等。例如,在动画制作中,通过AI绘画技术可以更加快速和精确地绘制角色和背景,提高制作效率和质量;在游戏开发中,可以利用AI绘画技术实现更加逼真和细致的场景和角色设计,提升游戏体验。
感兴趣的小伙伴们可以前往作者的官网去了解更多的内容,也别忘了下载一个StableDiffusion亲自去体验下,当然这对于配置的要求可不低,没有一张性能强悍的显卡怎么行!全新影驰GeForceRTX 40 SUPER系列GPU,在AI工作负载方面,GeForceRTX 4080 SUPER生成视频的速度比RTX3080 Ti快1.5倍,生成图像的速度比RTX3080 Ti快1.7倍。作为在PC上体验AI最佳的显卡系列,专用AITensor Core可提供高达836AI TOPS,在游戏、创作和日常工作等方面提供革命性的AI性能。
(8592273)