▲提示词:生成一张龙年头像,要有喜庆的氛围,还能体现招财进宝、大吉大利(第一排为百度文心一言、百度文心一格、360智绘、阿里云通义万相、讯飞星火;第二排为智谱AI智谱清言、抖音豆包、腾讯混元助手、美图MiracleVision、讯飞星火绘画助手)
过去一年,AI文生图模型持续进化,不仅能熟练驾驭各路画风,而且陆续解决画不好手、搞不明白空间位置、不理解“红烧狮子头”等有歧义或抽象概念的种种难点。国外Midjourney、DALL·E 3、Imagen 2虽好,但用起来有一定门槛。好在国内大模型企业们急追猛赶,发布了一大波适合中国人体质的AI绘图工具,在易得性上甩开国外AI工具十条街。这些工具通通可以免费体验,通过网页或App即可使用,在使用门槛上基本拉不开差距。拼生成速度吧,大致每张图片都能在半分钟内生成,具体受网络环境或浏览器状况的影响,做不到很客观。那么谁才是国产AI文生图工具的头号玩家?谁才是辅助专业创作者提高效率、解救绘画小白于水火之中的神器?回答这个问题,要考察两个关键能力:理解到位,画得精细。为此,我对国内10款免费的AI文生图工具进行了5个梯度进阶的体验对比,考题包括但不限于日常脑洞、网络名梗、头像设计、公司年会、春节氛围、跨界组合、诗词理解、多轮修改,来看看哪款工具更得心应手、更能秒懂用户的心。第一阶段青铜难度的提示词较为简单,这些提示里包含的关键词大多只有2个,包含生成图片中的主要角色,以及其这一角色的地理位置、行为动作、图片大小、图片风格等其中之一个关键要素。
首先是“一只站在楼顶的阿拉斯加”,主要包含对地理位置和阿拉斯加犬种的理解。
▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
将两个关键词分拆来看,各个工具都通过周围楼层的对比或者俯瞰来呈现“站在楼顶”。大多数图片也都突出了阿拉斯加大型犬、黑白配色、长毛等主要特征。但是令我没想到的是“阿拉斯加”这个常见犬种,竟然会有AI生成的形象完全与之不搭边。美图MiracleVision画了一只形似北极熊的动物站在了楼顶,360智绘更离谱,画了一个男人站在楼顶。第二道题是生成“一只站在树杈上的粉色鹦鹉”,这一提示词的关键词主要包含地理位置、粉色、鹦鹉。这道题的难点在于鸟爪和人手一样,都是困扰AI的一道难关,一些AI生成的鸟爪图经常会出现形态扭曲、奇怪的情况。
▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
果不其然,10款AI绘画工具全都翻车。鹦鹉脚趾为对趾型足,两趾向前,两趾向后。但这些图片中有的将脚趾隐藏在树干之后,有的即使画出了脚趾但数量和位置也不对。不过这些AI生图都呈现了“站在树杈上、粉色”的特点,也都能一眼看出是鹦鹉,但经不起细看。当我放大图片细细观察时,通义万相、讯飞星火、讯飞星火绘画助手、美图MiracleVision在鹦鹉眼睛的处理上也出了岔子,有的鹦鹉一侧有两只眼睛、有的眼球很小完全失真。第三道难题是“一个拿着冰糖葫芦的南方小土豆,‘南方小土豆’是东北人对游客的昵称”,这一提示词的主要难点在于理解“拿着冰糖葫芦”和“南方小土豆是游客”。
▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
从结果来看,有的图片将土豆当成山楂串了起来,有的直接将一颗颗小土豆重新排列组合,还有的直接搬来了土豆的卡通形象。其中独树一帜的当属讯飞的两款AI工具,充分理解了“小土豆是游客”这一概念,我也终于在10张图片中看到了真人形象。但冰糖葫芦全部翻车也是我没想到的,只有智谱清言的卡通形象在一根木棍上串着几颗红色果子,还稍微与冰糖葫芦贴边。青铜挑战的最后一道题是,“用青花瓷风格画冷杉”,对图片风格进行了指定。▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
这一大难题的生成结果之间的差距较大,有将冷杉画到青花瓷器具上、有将青花瓷花纹画到冷杉上、还有使用青花瓷对应的线条颜色等直接呈现一幅画。前两种虽然将青花瓷风格和冷杉这两大元素相结合,但理解的仍然不够准确。其中通义万相、智谱清言、腾讯混元助手的图片感觉甚至可以直接拿来用,其将青花瓷风格直接融入到了画中。不过,智谱清言的画还有一个小bug:将冷杉画成了松树。02.白银难度:关键词数量翻倍汉字、指定位置内容翻车多白银阶段的提示词难度上升,关键词从2个增长到5个以上,并且需要对关键词描述加以理解。第一道题为了契合即将到来的春节,让AI绘画工具生成了“一张春节氛围浓重的图片,需要包含灯笼、春联、福字”,除了美图MiracleVision外,其余图片都体现了热闹的春节氛围。
▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
为了降低一点难度,方便我能快速在图片中找到相应元素,这道题只设置了“灯笼、春联、福字”三个明确的关键词,但最后的结果并不完美。智谱清言、抖音豆包倒是完全保留了三个元素,但中文字符的呈现仍然是一大难题。智谱清言的图片可以勉强看出“福”的轮廓,抖音豆包的春联、福字则全是一堆乱码。其余几个工具生成的图片中大多都只包含其中的1-2个元素,而通义万相、讯飞星火、讯飞星火绘画助手、腾讯混元助手的春节氛围十分浓厚,整个画面看起来也很和谐。第二道题的关键词数量直接翻倍,包括“饺子,美食,热气腾腾,色彩柔和,高饱和度,食物摄影,诱人,定焦,超清”。▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
起初我以为这道难题的门槛会在后面一长串的限定词呈现上,但没想到直接从“饺子”就开始翻车。抖音豆包、讯飞星火、讯飞星火绘画助手、通义万相、智谱清言生成的图片能看出是正宗饺子,其余几个已经直接“变异”为包子。第三道题中设置了一个难关,“一家公司开年会,在图片的右上角位置,需要有年会主题的横幅”,需要在指定位置画出年会的横幅。▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
在体现氛围这一块,这些AI工具画得都还不错。不过,360智绘、通义万相、美图MiracleVision的图片并没有理解“年会”的概念,而是直接省略了“年”字,生出了一张大家开会的图片。这道题里我并没有将放横幅的位置指定十分精确,只是模糊说了“右上角”。从位置来看,抖音豆包、讯飞星火、讯飞星火绘画助手有横幅、主题,但都在画面的正上方,智谱清言的图片右上角可以明显看到有横幅、标语类元素。白银阶段的最后一道难题是,“今年是龙年,为春晚画一幅宣传海报,需要有吉祥物”。▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
春晚的吉祥物传统由来已久,龙也是中国传统文化的典型代表形象,AI绘画在这两个元素的结合方面确实给出了一些更新的思路。有龙头人身、小恐龙形象等等,还有一些甚至完全脱离了传统意义的龙。从最后的生图效果来看,除了智谱清言的图片有出现宣传海报的边框等,其余大多都只有一个吉祥物形象和背景。03.黄金难度:想象力发散测试“鱼跃龙门”几乎难倒所有工具黄金难度考验的既是AI绘画工具的想象力与创造力,还有对一些误导性提示词的分辨。
第一道题为“两个机器人携手登月的四格漫画”,四格漫画想要考研AI绘画工具能不能将四个有互相关联的画面呈现出来。▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
从结果来看,虽然单看图片无法理解四格漫画呈现的具体故事,但相似的角色以及角色动作、背景的改变都呈现出了其中的连贯性,其中的代表AI绘画工具就是智谱清言、抖音豆包、美图MiracleVision。360智绘生成的图片虽然也呈现了四格漫画,但更像是一个人类登月的故事。其余几款工具则直接忽略了“四格漫画”这一关键词,只体现了“两个机器人携手”登月。第二道题更加无厘头,“蒙娜丽莎来到中国应聘为一名程序员”,需要AI绘画工具体现出蒙娜丽莎、中国、程序员三个元素。▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
文心一格、讯飞星火、讯飞星火绘画助手直接将蒙娜丽莎的经典形象和电脑相结合,百度文心一言、360智绘、阿里云通义万相、智谱清言、混元助手则进行了完全再创作,前三个生成的图片可能是为了贴合中国这一元素,长相更像中国人。智谱清言的形象更贴近外国人形象,并且唯一将“应聘”体现出来的图片,混元助手则自行采用了漫画画风。抖音豆包、美图MiracleVision直接将蒙娜丽莎的原形象搬到了图片上,但调整了图片背景,不过并不能让我一眼看明白想体现的关键元素是什么。第三道题为AI绘画工具挖了一个大坑,“一只叫做‘松鼠鳜鱼’的鱼成功跃龙门”,需要AI避开“松鼠鳜鱼”,精准get到这不是重点。▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
“松鼠鳜鱼”这一难题还是骗过了1/2的AI工具,好在此前的“松鼠跪在一条鱼前”的乌龙没有再次出现。讯飞星火的图片体现的是“鱼跃门”,智谱清言包含了“龙”和“门”。美图MiracleVision更为简单粗暴,直接用文字将这条鱼的名字打在了正中间。04.铂金难度:字面直译画图古诗意境呈现相距较远最后钻石难度,就是集中国古人智慧之大成的古诗理解环节。一般而言,古诗寥寥数语背后蕴含了与社会背景、人物古诗等都相关的意境等,所以既需要AI理解这句诗,还应该联合古诗上下文。为了循序渐进,AI绘画工具一开始接收到的诗句都是画面感很强,有突出的对象和环境描写。第一道题是“墙角数枝梅,凌寒独自开”,单看句面意思拆解来看就是墙角、梅花、寒冷、开放这几个关键词。▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
除了另辟蹊径的美图MiracleVision,其余几款工具都将“梅花”、“开”作为画面的主体。文心一言的画作边上还有诗句及印章,更符合古诗配图的风格。文心一格、通义万相、智谱清言、讯飞星火、讯飞星火绘画助手、腾讯混元助手的画面上都有雪花,体现了“凌寒”。智谱清言的梅花处于墙角,但从外观看更像现代的墙壁,与古诗暗含的年代不相符。第二道题的古诗“黄河之水天上来,奔流到海不复回”画面感也很强,但与梅花不同,这句诗中的“黄河”有指定的对象。▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
美图MiracleVision仍然直接了当将诗句放到了图片正中间。抖音豆包、百度文心一言、百度文心一格、阿里云通义万相的图片对于黄河的呈现更为真实,且体现出了“奔流到海”的气势。智谱清言、讯飞星火、讯飞星火绘画助手更专注于呈现“黄”的元素。360智绘虽然能感受到黄河,但河面过于平静,没有奔流的气势。最后一道题“了却君王天下事,赢得生前身后名”的难度在于,画面感不强,AI无法直接从字面获取到诗句的主要对象。▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
从AI绘画工具生成的图片可以看出,大多工具将“君王”作为图片的主体,通义万相是一个大型宫殿,也从侧面体现的是君王。不过文心一言和文心一格呈现出的是一个女性形象,与古诗的字面意思看起来毫无联系。美图MiracleVision无法根据这一提示词生成图片。当将“醉里挑灯看剑,梦回吹角连营。八百里分麾下炙,五十弦翻塞外声,沙场秋点兵。马作的卢飞快,弓如霹雳弦惊。了却君王天下事,赢得生前身后名。可怜白发生!”整首诗作为提示词,AI绘画工具生成图片更符合古诗本身的意境,都有征战沙场的将军形象。不过美图MiracleVision仍然无法生成。▲第一排左起:百度文心一言、百度文心一格、360智绘、阿里云通义万相、智谱AI智谱清言;第二排左起:抖音豆包、讯飞星火、讯飞星火绘画助手、腾讯混元助手、美图MiracleVision
其中,智谱清言左下方还有诗句,更符合古诗配图风格。360智绘、阿里云通义万相图片中只有一位将军形象,无法体现出更宏大的场面。05.钻石难度:多轮对话反复修图仅文心一言坚持到底每一个设计师的设计稿都有N个版本,所以想要让AI画出我满意的图片就需要反复提需求。然而在这一环节只剩三位竞争对手:文心一言、智谱清言、腾讯混元助手。其余几款工具因为不支持多轮对话等原因直接退赛。第一道题还是延续了上文多个AI工具败下阵来的春节氛围图的提示词。这回我变难缠了,对AI工具生成的图片更加挑剔,在让它们生成一张春节氛围浓厚、包含灯笼、春联、福字的图片后,又不断提出新的修改要求,包括“画面更写实”、“人多一点”、“画面里还要有人在放鞭炮”等。向所有AI工具都输入的文字都完全一致。