扣子给开发者提供了一个AI工坊,让开发者可以以较低的成本,通过一键操作来使用大型模型。
大型模型在市场上备受关注,因为它们在价格、参数、工具链、长文本处理和多模态应用方面都表现出色。竞争激烈,市场非常热闹。
AI应用开发者们却犯难了。底层模型快速升级变化,如何更好地追踪各家模型的能力变化?不同模型在场景里的能力差异点具体体现在哪些方面?要做一个应用,如何更快地选择出适合的模型?
在字节旗下AI 应用开发平台扣子联合 Intel 推出的AI工坊( Coze AI Factory )活动中,扣子推出了全新的功能——“扣子模型广场”。开发者们可以轻松参与模型能力评测,为应用开发提供指导。
在模型广场里,用户可以向两个基于不同底座模型搭建的Bot发出请求,Bot会匿名返回不同的结果。根据结果,用户能比较不同模型在特定场景里的表现并打分。“产品好不好用,用户会用脚投票”,扣子的模型广场,用轻松对决方式,让开发者们给大模型的场景能力投票,极大程度降低了评测模型能力的难度。
选择适合的底层模型能力,对于AI应用的效果至关重要。模型广场的出现也有助于AI应用获得更好的用户口碑。
扣子正持续从产品和功能上不断努力,以降低人工智能应用开发的门槛,加速人工智能应用生态的繁荣。
01
这个东西好不好用,到底谁说了算
去年,一个人工智能开发者向我们描述了他在使用大型模型开发人工智能应用时的困惑,“有时候你根本无法确定是模型本身存在问题,还是应用场景存在问题,或者是你自己存在问题,或者是三者都存在问题。”
这看起来像是个段子,但其实反应出了当下开发者群体在使用大模型技术时的典型心态——到底大模型能否在某个具体场景中发挥作用,基于该场景选择的模型是否合适,以及是否充分考虑了工程化工作。
经过一年多的探索,大家对大语言模型的应用范围基本上有了共识和定论,但是在场景和模型匹配方面却遇到了更大的难题。
市场在快速变化,厂商们不断推出新的功能和能力,例如增加了挂载知识库的功能,提供了更大的文本窗口等。对于从事细分领域AI应用开发的开发者来说,面临着如何从众多模型中选择适合自己应用开发的模型的问题。
最近,扣子针对这个痛点,推出了一个非常轻松有趣的功能“模型广场”,可以通过一键来比较各家大模型在不同场景下的能力。有三种方式来评估大模型在特定应用场景和规则下的性能——机器人对战、随机机器人对战和纯模型对战。
扣子对战模式下,扣子目前提供了多种场景里的不同Bot,用户可以选择任一场景里的Bot去观看两个匿名的大模型的表现。
如果你对“信息分析与处理”场景中不同大模型的能力差异感兴趣,可以选择这个分类下的“LYi论文助手”Bot来进行测试。
界面内会出现两个基于不同的大模型底座搭建的机器人,分别是模型A和模型B。当相同的指令被发送时,它们会分别给出不同的回复。
全部回复完成后,页面上会跳出一个打分栏,用户需要对两个匿名大模型的场景能力作出评分。
基于回复的内容,我发现模型A在对相关参考文献的信息提取及结构化呈现上能力更强。模型A在整个任务中对背景、研究内容、意义、研究结果和参考文献都做了更完整的呈现,更符合现实生活中论文阅读和信息提炼场景的需求。而模型B严格基于问题的要求“背景和意义”,将所有的研究内容都放到了意义部分呈现。虽然模型B达到了预期目标,但从结构化能力角度来看,模型A的回答更为丰富。
我给这次PK打分“A表现更好”之后,系统揭开了两个模型的神秘面纱。
扣子在产品界面设计中非常注重用户的参与度,分享按钮的存在可以直接将整个过程完整地截图下来。如果你对我的评测打分过程感兴趣,可以横屏查看这个长图,里面展示了两个模型的表现。
如果你没有明确的测评方向,随机Bot对战模式下,系统会自动给你分配一个Bot来评测两个匿名大模型的性能。之后的体验过程与前面的指定Bot对战完全一样。
还有一种对战模式,纯模型对战,它不会选择任何Bot,直接向模型提出要求即可。举个例子,我以刚刚过去的全国高考“甲卷”的作文要求为例,让两个大模型展开了对决。
从结果看,两个匿名大模型基于不同的侧重点给出了回复。模型A更强调表达时的自然感,它的文风与我提出的请求风格保持一致。模型B更强调内容表达的结构性,它分层表达,更为严谨。
这个测试里能看出来两个模型偏重的方向并不一样。所以如果开发者想做一个跟人对话互动类的应用,可能模型A更合适,而如果想做信息提炼类应用,模型B则更符合要求。我给这次对决的结果打分为“两个都不错”。
三种模式,两个模型对决,扣子的产品界面和设计细节充满了趣味性,可以明显感受到,它希望用户能够轻松愉快地参与这种评测活动。
02
接入各种主流模型,以满足各种场景需求
目前扣子的模型广场里,可以选择对战的Bot,覆盖了信息分析与处理、知识应用、推理能力、编码能力、任务解决、生成创作和角色扮演等多个场景,包括但不限于:
信息分析与处理:对大量信息进行分析和处理,提取有用的信息。 知识应用:应用已有的知识来解决问题或提供帮助。 推理能力:通过逻辑推理和推断来解决问题。 编码能力:具备编程和算法设计的能力,可以实现各种功能。 任务解决:能够解决各种任务和问题,包括实际生活中的各种情境。 生成创作:可以生成各种创作,如文章、音乐、绘画等。 角色扮演:可以扮演不同的角色,与用户进行互动。这其实也是目前大模型能力比较擅长的场景和领域。在这个领域中,大模型能够通过细分任务来提高自己的表现。这样做的目的是为了满足开发者的需求,因为在实际应用中,每个开发者都会针对特定的场景进行尝试。
市场上之前也有很多评测指标和榜单,旨在为使用模型的开发者们提供一些指导。然而,这些评测大多数都是基于裸模型的评测,从应用开发的角度来看,仅仅依靠裸模型可能是不够的。
每一个应用开发者都有面向的特定场景,所需要的可能也不是一个大模型的全部能力,而是要充分利用它在某一个场景内的潜力。所以扣子分场景对决,是真正从应用落地出发的尝试。
通过这些动向和安排,我们可以清楚地看到扣子的思路。
一方面,通过实际的使用效果,可以直观地展示不同场景下大模型的优劣。我们可以拿出来使用,通过体验和效果来评判。在评测过程中,两个模型是匿名的,只有在打分之后才能知道哪个模型得到了好评,这可以极大地确保评测的公正性。
目前,扣子已经接入了豆包、通义千问、智谱、MiniMax、Moonshot 、Baichuan等国内主流大语言模型。扣子接入更多主流大语言模型,意味着有更多的人可以来评测和反馈,这样可以解决开发者们在选择语言模型时的困难。
有人说,人工智能之所以像人工智障,还是因为模型能力不足。如果开发者们都能根据自己的场景,选择场景内能力更强的模型,应用的效果就会更好。从这个角度来看,扣子所做的事情也是在帮助整个行业克服AI应用落地的障碍。
03
当你遇到困难或者无法做出决策时,可以尝试使用机器人来帮助你解决问题。
除了最新上线的模型广场,扣子还有其他的功能和产品,让更多人更低门槛、更便捷地体验人工智能。
扣子也上线了Bot(机器人)商店,类似苹果的AppStore,每个Bot就是一个个小应用程序。
扣子用户在上面搭建了各种各样的Bot,包括高考志愿咨询、剧本杀、动漫、小红书文案,以及哄女友神器等等。从这些Bot的功能来看,扣子上的用户似乎对阅读很感兴趣。扣子上有很多读书的小助手,比如“认真看一百本书”、“假装看过一万本书”,这些Bot的用户数量也相当可观。
商店中的Bot还在不断上新。这个月高考刚刚结束,各种有关志愿咨询的Bot很受欢迎。
像高考专业指南Bot,通过10道选择题,分析用户的性格特点和对未来生活的愿望,然后给出参考的报考专业方向。从右侧的介绍可以看到,它基于豆包Function call模型,开发者做了私有工作流。
我尝试做了一些选择题,根据结果推荐了计算机、历史和管理学专业。同时,还提供了这三个专业毕业后的起始平均薪资,分别为8000元、5000元和6000元。
如果你说这类应用,之前的一些小程序也能实现,那就再看看这个高考志愿填报咨询师,问了一句,“河北考生,高考总分460,选课组合是物理、历史和政治,想报考芯片专业”,它提供出一些参考的学校。
除了高考的Bot,还有很多非常有趣的Bot。比如这个橘猫漫画家,可以一句话生成一组橘猫漫画,而这些可爱的猫咪太治愈了,之前的小程序很难给人们这样的体验。我发给它“一只橘猫失恋了”,它创作了一组四张画来安慰我。
04
如何用一句话来创建一个机器人
我们不仅可以在Bot商店使用各种有趣的Bot,也可以自己动手创建自己的Bot,而且门槛非常低,只需要一句话就可以了。扣子就像是一个实验工坊,难怪一些小学生也能从零开始,并且制作出复杂的Bot。
对了,现在扣子和 Intel 联合推出了人工智能工坊( Coze AI Factory ),这是一个主题机器人征集活动,欢迎你也来尝试下呀。
我们尝试创建了一个名为“图说故事”的Bot。点击“创建Bot”,只需给它起一个名字,并写下一句功能介绍即可。
因为这个Bot的功能是图说故事,我准备选择一些插件,来提升Bot的技能。扣子上有插件商店,简单说它是一种辅助程序,能帮助主程序实现一些需要增加的特定功能。插件商店里提供了大量插件,用户可以根据插件的名字和简短的功能介绍来选择合适的插件。用户只需要通过拖拽的方式将插件添加到主程序中,非常容易上手。
我选择了通义万相文生图和ByteArtist的文生图插件,来分别试试效果。
现在,我对Bot说“请你画一只胖胖的猫咪,它正躺在院子里的一棵高大的树下,正在给小朋友们讲述一则传说故事”。我看到Bot开始运行了,并且调用了通用万象功能。
它在短短几秒钟的时间内迅速生成了这张图像。
就这么简单,图说故事Bot就做好了。
05
工作流,将各个环节有机地连接在一起,实现万物的顺畅流动
生成一张图还不过瘾,我准备制作一个绘本。这需要在Bot再加一步,选择插入一个绘本制作的工作流。扣子上也提供了工作流商店。
这次我通过搜索,在我的图说故事Bot上,插入了绘本制作的工作流程。
现在,我把一个猫和老鼠的故事交给Bot,但它回复我抱歉,无法制作绘本!我再次尝试,在故事前面加入工作流功能介绍中的“分镜制作”四个字,它终于运行起来了,调用了绘本制作工作流,生成了一个9张图的绘本。
有了自己创建的Bot,哄娃变得不再令人头疼。你还可以让小朋友一起参与,利用Bot制作歌曲、编写故事。如果说之前的小朋友是互联网原住民,那么现在的小朋友,或许将是大模型和Bot的原住民。
最近,大家发现,Bot上又出现了“添加图像流”的功能。顾名思义,图像流是一种用于处理图像的工作流程。同样是通过拖拽方式添加,非常容易上手,这是利用人工智能技术,来降低我们处理图像的难度。
夏天已经来临,我决定给自己设计一些时尚的夏季穿搭。我在我的新创建的“Pattaya”小助手的Bot中选择了一个名为“换衣”的图像流,并且将其添加进去。接着,我从图库中找到了一张合适的图片,并发送给小助手,标注为“生成穿搭图”。
可以看到,它开始调用换衣的图片流。
几秒钟后,它给出了两张穿搭图片,可以点击查看,穿搭风格非常清爽。
你还可以利用图片流技术实现智能换脸、换背景、扩大图片尺寸、抠图、多张图片融合等等。有趣的是,我创建的Bot还可以选择一键发布到各个社交平台、通讯软件或部署到网站等其他渠道。
我在思考,如果将来要创建一个卖衣服的电商网站,将会变得非常简单。我们可以利用扣子创建一个个机器人,这些机器人可以创作文案、生成模特海报,还可以让用户一键换衣来查看效果。当然,这些机器人也可以用来实现财务处理、进销存和物流的自动编排。
未来我们的生活和工作,可以被一个个机器人串联、并联起来了。
06
知识库的使用可以让Bot拥有更加个性化的特点
除了这些尝试,我最近还有一个诉求,我和同事们在日常工作中积累了大量的专业文档。上周,我同事还在为我们小组分散在各个地方的文档发愁。我们希望能够建设一个属于我们自己的知识库,以便于方便大家进行检索和查询。
我们发现,在Bot上,有新增知识库功能,也是通过拖拽方式,把各种形式的知识储存,最多可以上传300个文档。我准备上传一个很硬核的文件——华擎主板570。在上传前,我先问了Bot一个问题,让它介绍下这个主板。可以看出,它给出的答案是比较笼统的。
然后,我创建了Pattaya的知识库,上传了华擎主板570的专业文档。再一次问同样的问题,这次,它回复的很具体,还给出了文档中的相关页面。
在这个尝试之后,我和同事们计划梳理几个个性化知识库,包括案例库和大模型知识库等,以方便我们小组内的检索和复用。与此同时,我的一个朋友也打算将他这两年观鸟的图片整理成一个知识库。
扣子上还提供更多的工具。比如,为了让 Bot与用户沟通时有更好的记忆能力,扣子支持将重要内容存储为关键变量、数据库。为了有更好的交互体验,扣子支持配置开场白、用户问题建议、快捷指令、背景图片、语音等,还支持卡片格式输出。
开发者之间的交流也非常热烈。除了Bot商店、插件商店和工作流商店的展示之外,每个Bot的右侧都设有社区入口,供大家进行交流。
也有许多开发者建立群组进行交流,并进行直播交流。有些直播中,开发者们聚在一起讨论,常常持续数小时。
一位开发者说,扣子让他真正接触到了大规模的模型。以前,他四处寻找,有些需要付费甚至都不一定能使用。现在,扣子提供了各种模型和工具,就像一个人工智能的实验室或者工坊,让大规模的模型变得触手可及,帮助他开启了未来之旅。对我们普通用户而言,又何尝不是呢!