1. 体验字节AI后发现杀手级应用尚未出现。(字节跳动 用户体验)

1. 体验字节AI后发现杀手级应用尚未出现。_图1

字节的豆包,悄悄成了国内用户数量最多的原生人工智能应用。

最近一场活动上,字节跳动产品和战略副总裁朱骏透露:5 月中,豆包的月活跃用户已经达到 2600 万。目前,豆包APP 的下载量已经超过 1 亿,平台上创建的智能体数量超过 800 万。从月活跃用户数量来看,豆包已经超过了今年以来备受瞩目的 Kimi Chat 和百度文心一言。

虽然字节跳动的豆包大模型(原云雀大模型)去年 8 月才推出,但不到一年的时间里,无论是从模型层面还是应用层面的发布来看,字节跳动已经成为发布数量最多的公司。根据极客公园的不完全统计,到目前为止,字节跳动已经推出了11款人工智能产品。

与以往在 XR、地产、教育、SaaS 等领域启动新业务线的「高调」不同,在生成式 AI 爆火的一年半里,字节跳动的打法可以用一个古代行军打仗的成语来形容:就是「衔枚疾进」

一方面,字节搭建了拥有顶级人才的技术中台,并推动各个业务线积极探索应用人工智能技术,同时还成立了多个新团队来研究不同领域的原生人工智能应用。另一方面,尽管字节在人工智能领域投入了大量资源,但其在这个领域的声音却相对低调。直到今年5月之前,只有飞书发布了一个与智能体相关的新应用。据了解,去年字节有多个团队希望发布人工智能产品,但都被高层压制了。

低调不代表没有实力,实际上在不少行业人士眼中,字节跳动就被认为是国内最有可能在这波技术浪潮里做出杀手级大模型或原生 AI 应用的国内大厂。原因至少有四:

字节跳动在人工智能领域有非常丰富的积累,其本身是全球最早将人工智能技术大规模用于信息分发,并在过去几年里积累了大量的图形处理器(GPU)算力资源。

作为移动互联网时代的连续依靠今日头条、抖音等产品突破国内BAT天花板的创业公司,字节拥有国内最顶尖的产品研发和运营团队

作为今日头条、飞书、抖音、番茄小说等产品的母公司,字节跳动拥有庞大的用户基础和内容生态,积累了大量的高质量数据

后者的重要性不言而喻,它是推动人工智能技术发展和应用的关键”燃料”。

最后也是最重要的一点:无法进行合理性的扩写

背靠抖音的字节拥有国内甚至全球最优质的流量资源。很多创业者梦寐以求的百万千万日活用户,对字节来说「轻轻」推一下就能实现。

这就像当年游戏行业的腾讯,字节跳动不用担心用户数量,只需要开发出优质的产品即可。

毫无疑问,字节是国内原生人工智能应用的领先者,这或许也是字节选择不断进步的原因。而进入5月,随着豆包大模型的发布,字节的人工智能战略显然要进入下一阶段。在这个时间节点,极客公园梳理并体验了目前字节所有已经公布的人工智能产品,希望通过这种方式探究这些产品背后的思维方式,并借此窥见字节全面人工智能战略的一部分。

01

火力覆盖:不错过任何一个品类

穷则精准打击,富则火力覆盖。后者用来形容字节在人工智能应用领域的战略再恰当不过。

据极客公园不完全统计,去年 8 月至今,字节跳动在人工智能领域一共推出了8款大规模模型、2个智能体开发平台,以及接近20个原生或基于现有产品的人工智能应用。

如下图所示,极客公园对字节跳动目前的人工智能(AI)产品进行了分类整理:

1. 体验字节AI后发现杀手级应用尚未出现。_图2

整体来看,字节的人工智能(AI)产品体系涵盖了最基础的模型层、开发代理的中间层,以及应用层的产品。其中模型层和中间层都比较常规,应用层则呈现出非常明显的多样性,可以说是百花齐放。

根据极客公园的统计来看,在已经公布的产品中,字节已经涉足了聊天、社交、图像/视频、教育、音乐等多个领域,其中既有Dreamina、CodeGen等偏向提高工作效率的工具型产品,也有猫箱(原话炉)、豆包等更面向消费者的应用。

在产品层面,字节基本上不会错过任何市面上比较热门的品类,上述产品基本都可以在市场上找到对标。比如 AI 对话类产品豆包,有 ChatGPT、文心一言和 Kimi;AI bot 开发平台扣子,则对标 GPTs;「猫箱」(原「话炉」)对标的是 MiniMax 的「星野」;教育产品 Gauthmath,类似的有猿辅导的数学学科产品;还有海绵乐队,海外的Suno 和国内昆仑万维的天工都是同类产品。

可以看出,在过去一年,字节正在复现移动互联网时代「App 工厂」的强大实力,技术和产品团队一直在快速发展壮大。

02

产品体验:字节想做什么?

极客公园按图索骥,体验了一圈字节的产品。这里我们挑选了三个比较有代表性的产品和大家重点聊一下:分别是豆包、「猫箱」和剪映「即梦 Dreamina」。

极客公园按图索骥,体验了一圈字节的产品。这里我们挑选了三个比较有代表性的产品和大家重点聊一下:分别是豆包「猫箱」和剪映「即梦 Dreamina」。  

豆包

豆包是字节跳动基于豆包大模型(原云雀大模型)开发的 AI bot,可以看到豆包有辅助写作、图像生成、AI 搜索、PDF 问答、翻译、网页摘要等诸多基础功能。下载桌面版后,还可以开通设置权限,让桌面上的每一个应用都接入 AI。

1. 体验字节AI后发现杀手级应用尚未出现。_图3

豆包使用页面|图片来源:极客公园

豆包上,可以自行创建各式各样的智能体。字节跳动产品与战略副总裁朱骏此前在发布会上提到,团队成员在豆包上捏了一个英语老师的智能体。除了用自然语言定义了「这个老师需要用英文对话,并且在对话中随时指正用户的语法错误」这个功能,也定义了该成员自己喜欢的声音和形象。平时在路上和「他」用语音消息的方式对话,回到家还会用实时通话模式来模拟英语口语对话。

在豆包上,用户可以自行创建各种类型的智能体。字节跳动的产品与战略副总裁朱骏在发布会上提到,团队成员在豆包上创建了一个英语老师的智能体。除了定义了该智能体需要用英文对话,并且在对话中随时指正用户的语法错误的功能,团队成员还定义了该智能体的声音和形象,以符合他们的喜好。平时在路上,团队成员会通过语音消息的方式与该智能体对话,回到家后则会使用实时通话模式来模拟英语口语对话。

从笔者个人的使用体感来看,字节跳动的豆包与百度的文心一言并没有太大区别,只是目前,豆包的使用还是免费的,这在一定程度上降低用户的尝试和使用成本,而文心一言则已经需要付费才能调用文心大模型 4.0 并解锁高级功能。

1. 体验字节AI后发现杀手级应用尚未出现。_图4

文心一言的会员价格|图片来源:极客公园

进一步的体验中,豆包的 TTS(Text-to-Speech)语音技术令笔者眼前一亮。在创建智能体时,只需朗读一小段文字,即可立即生成与自己声音别无二致的智能体。

1. 体验字节AI后发现杀手级应用尚未出现。_图5

在对话中,豆包上的智能体在回复时会在括号里加点语气词来模拟真人的说话语气,让互动更加自然。

1. 体验字节AI后发现杀手级应用尚未出现。_图6

这一点背后是字节跳动很早对语音交互体验进行了很大的优化投入,包括对大模型的自动语音识别(ASR)和超自然的文本到语音合成(TTS)音色进行了优化。这些优化旨在尽量实现与真人对话类似的感受。

豆包几乎是国内最早确立语音交互入口作为默认交互界面的大厂,后来其他公司陆续跟进了这一功能。

猫箱

「话炉」是一款以人工智能角色为核心的社交应用,同样由抖音豆包大模型驱动,并且与豆包数据进行互通。4月11日,「话炉」决定更名为「猫箱」。

「猫箱」的特点在于其提供了丰富多样的互动内容和由用户决策影响的故事走向,这为用户带来了一种全新的社交娱乐体验。

在猫箱的体验中,一进入应用,笔者就被推荐了一系列人工智能角色,他们各具特色,让笔者迫不及待想要开始对话。

「猫箱」支持文字和语音两种输入方式,这让交流变得更加自然和便捷。在与 AI 角色的对话中,我发现我的每一个决策都会影响故事的发展,这种参与感让人仿佛置身于一个真实的故事世界中。每一次选择都可能导致不同的故事走向,这种体验起初让我感到乐此不疲。

如果用户对当前的虚拟角色感到乏味,「猫箱」提供了一个简单而直观的解决方案:只需轻轻一划,就能刷新出全新的虚拟伙伴。这种类似抖音上下滑动短视频的设计,「以前刷短视频 现在刷智能体」,让笔者体验到了从言情到玄幻、从猜谜游戏到日常闲聊的多样化聊天乐趣,每一次刷新都是一次全新的探索。

但新鲜感很短暂。初见各具特色的 AI 角色,对话下来发现大同小异,它们的回答和反应模式逐渐显露出一种机械化的重复性,缺乏真实人类交流中的复杂性和不可预测性。尽管语音输入是比打字省事多了,但讲话讲久了,不自觉期待一些其他的玩法。很遗憾,现在还没看到。

尽管「猫箱」的语音输入功能确实为交流带来了便利,让笔者能够更自然地与 AI 角色对话,但长时间的交流后,笔者开始渴望更多的互动方式,期待能够通过更多元化的玩法来丰富这种交流体验,遗憾的是,在目前的版本中,更有新意的功能还未出现,这让笔者对这款 APP 的长期吸引力产生了疑问。

人真的有这么多话可以说吗?在与一个完全虚幻的人工智能产品对话的过程中,获得的满足感有多大?这样的产品的吸引力能够持续多久?

疑问过后笔者强迫自己多刷了好一会儿,可能因为在霸总频道停留的时间略微久了一点,「猫箱」给笔者推荐的霸道总裁越来越多了。

1. 体验字节AI后发现杀手级应用尚未出现。_图7

「猫箱」里的霸总|图片来源:极客公园

这一点跟抖音的个性化推荐别无二致,但区别在于,「猫箱」并不能查看各个 AI 角色的互动数据,比如点赞、转发和评论数。而这些互动机制是抖音平台设计的一部分,让用户能够发现和观察内容的热度,也让平台能够了解哪些内容受欢迎,并据此进行内容推荐。

1. 体验字节AI后发现杀手级应用尚未出现。_图8

「猫箱」使用页面除了可以查看聊天记录,再有就是点击心形符号对角色进行收藏,分享渠道也相对简单|图片来源:极客公园

虽然也支持对外分享,但目前页面设置来看,一方面,「猫箱」似乎更倾向于提供私人化的体验,用户可能无法看到其他人在玩什么,社交性不足,交流有所受限,但这样的设计也减少了社交影响,让用户的注意力能够更集中在互动本身;另一方面,相比用户之间的社交互动,「猫箱」可能更强调用户与 AI 角色的互动,这种设计看起来是在进行一些 AI 原生的人机交互探索。

在这样的前提下,要让用户热衷于使用这个产品,想来就更考验人工智能角色本身的交互性以及内容的创新性了。

即梦 Dreamina

最近,字节跳动旗下的AI创作平台「即梦 Dreamina」的视频生成功能也开始进行测试。我亲自尝试了一下。

可以看到「即梦 Dreamina」的页面非常简洁,主要有人工智能作图和人工智能视频两大功能分区。

1. 体验字节AI后发现杀手级应用尚未出现。_图9

不过从侧边栏看,AI 工具包括:图片生成、智能画布、视频生成以及尚未开通的故事创作四项功能。

笔者这次主要体验了视频生成功能,先试文本生视频,输入了一段简短的文字:

1. 体验字节AI后发现杀手级应用尚未出现。_图10

可以看到有随机运动镜头、推进运动、拉远运动、顺时针旋转以及逆时针旋转 5 种镜头运动方式,16:9、4:3、1:1、3:4、9:16 5 种视频比例以及慢速、中速、快速 3 种运动速度。

1. 体验字节AI后发现杀手级应用尚未出现。_图11

生成视频需要 12 积分,系统每天会赠送 60 个免费积分。

等待了约两分钟后,「即梦 Dreamina」给笔者生成了一个 3 秒的视频。在这短短的三秒中,画面中的金色短发女生通过转头、深深地叹了口气,眼角似有若无的泪水流露出了伤心和思考的情绪。

可以看到在生成视频下方有三个创作选项:再次生成、重新编辑和延长 3 秒。再次生成同样需要花费 12 积分。延长 3 秒要开通 69 元的月度 VIP 才可以。

1. 体验字节AI后发现杀手级应用尚未出现。_图12

69 元的会员权益包括单月 505 积分,下载无水印视频以及延长视频生成时长、多种音色以及视频对口型。

由于笔者先没有开通会员,只是又花了 12 个免费积分重新生成了一个持续时间为3秒的视频:

这一次生成的视频自动从侧面转向正面,但是视频中女主的右眼双眼皮好像有点不太自然,眨眼的速度稍微慢于左眼,感觉还不如第一次生成的符合预期。

我想充个会员,看看会员身份是否能够提供更好的服务和体验。

这是笔者输入的文字提示词:春江花月夜,一个身穿旗袍的盘发女子,正走在苏州河畔,她好像迷路了,正好有一位绅士走过,她走上前问路,那位绅士却不耐烦地推开了她。

这是笔者花了69元开通了会员,使用了延迟3秒以及对口型(需要花费36积分)等会员功能后生成的视频,总体还是有些奇怪的不说,而且后半句的文字内容也没有显示出来。

从目前生成的效果来看,「即梦 Dreamina」能够吸引到的可能也就是那些对视频创作感兴趣但可能缺乏专业技能的用户群体。平台通过积分系统和会员服务,提供了一个激励机制,试图鼓励用户进行创作并为增值服务付费。然而,从现在生成视频质量的稳定性与精细性来看,「即梦Dreamina」背后的 AI 算法还需要进行一些优化。

03

「人盯人防守」下,创新还未出现

从去年 8 月推出豆包大模型(原云雀)以来,不到一年时间,字节跳动已经推出了 11 款 AI 产品,覆盖了多个领域,包括 Agent 定制、聊天、社交、图像/视频、办公、教育、电商内容创作、音乐、教育以及代码生成等。这些产品涵盖了当前应用层创业的主流方向,可以说字节跳动在各个领域都有所涉足,几乎是采用了「人盯人防守」的打法。

同时,字节内部很可能也存在一个国内国外双轮驱动的产品发展战略:即通过在海外市场先行测试产品,验证产品市场适应性(PMF)和提升产品与技术的匹配度,以利于在国内推出更成熟的人工智能(AI)应用,保持市场竞争优势。目前在国内市场上,字节跳动依托自主研发的「云雀」大模型提供技术支撑,而在国际市场上,则至少部分采用了基于GPT的技术服务。

比如 AI 对话类产品豆包,海外版为 Cici ;对标 GPTs 的 AI bot 开发平台扣子,海外版为 Coze;AI 角色交流工具「话炉」,海外版为 BagelBell;AI 工具合集「小悟空」,海外版本为「ChitChop」……

字节跳动的优势在于它在移动互联网时代,积累下的大量数据,广泛的流量,以及强大的算力。然而,目前字节跳动并没有展现出与OpenAI不同的明确看准的下注方向。尽管如此,字节跳动仍在全面确保不掉队,努力跟上行业的步伐。

同时,作为产品大厂,字节在产品上也在探索 AI 原生功能,比如「猫箱」目前似乎更倾向于私人化体验,用户可能无法看到其他人在玩什么,在设计上可能更强调用户与 AI 角色的互动,而不是用户之间的社交互动。

同时,作为产品大厂,字节在产品上也在探索人工智能原生功能,比如「猫箱」目前似乎更倾向于个人化体验,用户可能无法了解其他用户在进行什么活动,在设计上可能更加注重用户与人工智能角色的互动,而不是用户之间的社交互动。

经过几轮体验,我们可以感受到目前这些产品的整体发展还不够成熟。这一点在我们与业内人士的交流中也得到了证实。换句话说,尽管这些产品或服务在概念上具有创新性,但实际的吸引力却不如预期。一些智能体提供的场景设定可能很有趣,但用户的聊天技巧对于反馈的依赖较大。如果用户不能很好地设置或调动智能体,使用体验可能会低于预期。

从用户的角度来看,目前市场上「猫箱」这类的 AI 对话产品在功能上看起来颇为相似,无论是角色扮演还是对话交流,大多数都依赖于文本或多模态交互。

从用户的角度来看,目前市场上的AI对话产品,如「猫箱」等,在功能上看起来非常相似。无论是扮演角色还是进行对话交流,大多数产品都使用文本或多模态交互的方式。

在与这些人工智能产品进行交流时,感觉就像是在进行一场单向马拉松,不断地输入内容,却只能得到单一方面的回应。这种「高度互动、低媒介」的模式,要求用户投入大量的精力,却不一定能得到同样丰富的反馈。

如果产品继续沿着这一路径发展,其潜在的用户规模将受到限制。这是因为大多数用户要么不愿意投入太多努力,要么缺乏通过多轮对话来展开有深度内容的能力。

从对话历史记录中可以看出,如果想要获得更好更有趣的回复,用户需要具备一定的聊天技巧,比如在对话中加入动作表情或描述性词汇。然而,大多数用户并不具备这样的表达或陈述能力。

但目前的这种形态也正是用户最易于接受的,用户不太可能直接与一个复杂的大模型互动,或者仅仅通过一个简单的对话框就能充分体验 AI 的功能。必须得给用户一个有基本设定、有情感代入、有基础形象的一个产品形态,用户才能够轻松上手。

未来,如果人工智能对话产品希望扩大其用户基础和市场影响力,就需要思考如何降低用户与产品交互的难度,同时提高媒介的互动性和反馈质量,以吸引更多的用户群体。

豆包等产品上的智能体,虽然通过强大的语言处理能力和持续学习特性,为用户提供了从知识获取到文本创作的全方位服务,甚至已经后来者居上,月活一度超过文心一言,但该产品同样面临着行业内普遍存在的挑战,即如何在同质化中突围找到核心竞争力,毕竟类似的产品实在太多了。而找到属于自己的核心竞争力,同样是字节跳动在 AI 时代面临的课题。

对于广大的人工智能创业者来说,这可能是一个好消息:即使是像字节这样的大公司,在人工智能应用领域也只是在试验阶段,要想开发出像抖音、头条这样具有杀手级应用的产品,还需要更多的时间。

但面对大型企业在人工智能领域的「监控和防范」策略,创业者可能也必须在创业的第一天就开始思考,在产品从零到一的阶段之后,在从一到十、十到一百的阶段,什么才是自己产品真正的核心竞争力,使得那些拥有流量和资金的大型企业无法轻易地模仿和取代。

每个新的技术时代都会有创新者冲破上个时代的限制,当年的字节跳动突破了BAT的限制,曾经也被认为是不可能的,但是任何大公司都有自己的规模带来的绝对优势,也一定有规模带来的固有弊病,即便是字节跳动也无法避免。

对于人工智能时代的创业来说,处于最佳发展时期的字节跳动毫无疑问是绝对不能忽视的重要因素,唯一的希望在于,人工智能的时代刚刚开始,所做出的所有努力只是在跟随和探索,未来还没有确定,继续向前走就对了。

0
分享到:
没有账号? 忘记密码?