以下是关于图像转文本的相关信息:
图像字幕任务是指基于输入的图像,生成描述该图像内容的一段文本。对于此任务,会使用一组成对的图像和文本数据,目标是建立和训练一个可以根据图像生成文本描述的模型。 目前语音转文本 API 提供了两个端点,即基于最先进的开源大型-v2 Whisper 模型的转录和翻译,可用于将音频转录为任何语言,将音频翻译并转录成英语。目前文件上传限制为 25MB,并支持 mp3、mp4、mpeg、mpga、m4a、wav 和 webm 等输入文件类型。 在 Stable Diffusion 中,图片生成图片的过程中,输入为图像和 prompt,输出为图像。其中 Load Checkpoint 模块对 SD 模型的主要结构进行初始化(VAE,U-Net),CLIP Text Encode 是文本编码器,可输入 prompt 和 negative prompt 控制图像生成,Load Image 表示输入的图像,KSampler 表示调度算法以及 SD 相关生成参数,VAE Encode 表示使用 VAE 的编码器将输入图像转换成低维度的隐空间特征,VAE Decode 表示使用 VAE 的解码器将低维度的隐空间特征转换成像素空间的生成图像。与文字生成图片的过程相比,图片生成图片的预处理阶段,先把噪声添加到隐空间特征中,通过设置去噪强度(Denoising strength)控制加入噪音的量,如果为 0 则不添加噪音,为 1 则添加最大数量的噪音,使潜像成为一个完整的随机张量,若将去噪强度设置为 1,就完全相当于文本转图像,因为初始潜像完全是随机的噪声。