以下是关于图片相关处理的一些知识:
移动端试卷拍照去除书写笔迹的方法: 图像预处理:包括图像去噪(使用高斯滤波、中值滤波等去噪算法)和图像增强(通过直方图均衡化、对比度增强等算法提升清晰度和对比度)。 图像分割:使用阈值分割、边缘检测和基于区域的分割方法将书写笔迹和背景分离。 文字检测:采用文字检测算法(如基于深度学习的文本检测模型)识别出试卷上的文字区域。 文字识别:对检测到的文字区域进行文字识别,将文字内容转换为计算机可处理的文本数据,常用基于深度学习的端到端文本识别模型和传统的 OCR 技术。 后处理:根据需求进行去除残余噪点、填补文字区域空白等操作。 机器学习模型训练(可选):如有足够数据,可采用机器学习技术训练模型,学习样本中的书写笔迹特征来自动去除笔迹。 优化算法。 图片模型比语言模型小的原因: 人类对图像的容错率相对较高,在处理视觉信息时可以进行一定程度的“脑补”,但对于语言,语法或逻辑错误很容易察觉,补偿有限,所以文字准确性非常重要。 去掉图片只用文字表达,要求的模型复杂度会小很多。 图像生成的核心质量实际上由文本控制。 关于【SD】真人转二次元的图生图功能: 图生图功能除文本提词框外还有图片框输入口,可通过图片给与 AI 创作灵感。 随便照一张照片拖入,文本输入框旁有两个反推提示词的按钮:CLIP 可通过图片反推出完整含义的句子;DeepBooru 可反推出关键词组。 两种反推方式生成的提示词可能有瑕疵,需要手动补充提示词信息,调整宽度和高度使红框刚好匹配图片。