基于边缘检测的分割,以下是相关信息:
在 Controlnet 中,可用的预处理/模型包括:
canny:用于识别输入图像的边缘信息。 depth:用于识别输入图像的深度信息。 hed:用于识别输入图像的边缘信息,但边缘更柔和。 mlsd:用于识别输入图像的边缘信息,是一种轻量级的边缘检测,对横平竖直的线条非常敏感,更适用于室内图的生成。 normal:用于识别输入图像的法线信息。 openpose:用于识别输入图像的动作信息,OpenPose Editor 插件可以自行修改姿势,导出到文生图或图生图。 scribble:将输入图像作为线稿识别,如果线稿是白色背景,务必勾选“Invert Input Color”。 fake_scribble:识别输入图像的线稿,然后再将它作为线稿生成图像。 segmentation:识别输入图像各区域分别是什么类型的物品,再用此构图信息生成图像。如果想绘制一张符合 segmentation 规范的图像,可以使用以下色表绘制:color_coding_semantic_segmentation_classes – Google 表格在 ComyfUI 蒙版中,关于 Segment Anything 语言分割转蒙版,SAM 和 G-Dino 有以下区别:
SAM: 主要用途:图像分割,即识别和分割图像中的各种对象。 技术特点:支持通过各种输入提示(如点击、框选或文本)来快速生成分割掩码,适用于多种图像分割任务。 应用场景:从简单的对象边缘检测到复杂的场景分析,SAM 都能提供支持。 G-Dino: 主要用途:零样本物体检测,能够识别训练数据中未明确出现的对象类别。 技术特点:结合了自然语言处理,能够根据文本提示识别和定位图像中的特定对象。 应用场景:除了标准的物体检测任务,还能进行复杂的引用表达理解(REC),即根据给定的文本描述定位图像中的对象。这两个模型在功能和应用上互补:SAM 更侧重于图像的像素级处理和分割,适用于需要精确图像分割的应用;GroundingDino 则侧重于通过文本描述理解和识别图像内容,适用于需要语言交互的对象检测场景。