大模型开始“普世化”了,不必理解技术,在不知不觉中就能轻松地使用。
一个不会编程的小学生,在手机上随便操作几次,就能创建一个外教“智能体”,陪自己练习口语,比那些“英语角”越练越差的例子要好得多——这样的情况并不罕见。
最近,“智能助手”类产品成了手机应用商店中备受瞩目的新产品。这类专为普通用户设计的AI应用,通常都是通过强大的大型模型作为基础,将各种散落的AI需求整合并封装到一个直观的“聊天界面”中,以满足用户对文本和图像处理的需求。
你能看到这类产品有,文心一言(百度)、通义(阿里)、Kimi(月之暗面)、海螺AI(MiniMax)、豆包(字节),还有刚刚发布就颇受关注的“元宝”(腾讯)等。一下子,用户恨不得给手机里装满了“助手”。
通过手机应用程序使用人工智能大模型,比在电脑网页上使用更加方便,也更符合我们已经养成的操作习惯。经过最初的好奇尝鲜驱动的使用,这类应用程序有没有可能变得像我们频繁打开微信、美团、滴滴那样常用呢?
从本质上来说,用户的核心需求并没有改变,他们仍然希望能够高效地获取信息、提高工作效率、表达情感以及享受社交和娱乐。那么,那些被称为“智能助手”的技术是否能够满足这些需求呢?
神仙打架还是菜鸡互啄?
打眼几个助手类产品的第一印象:产品同质化。人工智能搜索、文档总结和问答、文案写作、图片生成等,能够完成的任务相似。然而,由于模型能力和对价值判断的差异,用户在使用这些产品时,体验仍然存在差异。
左滑看AI如何帮我总结英文论文丨元宝app
人工智能的“工作流程”,首先是收集信息,然后对信息进行整理和分类,结合用户输入的理解,进行内容生成(也可以称之为创作)。
面对确定的、已有的资料,大型模型们都能给出不错的答案。但需要信息检索时,原本具备搜索能力的大型模型厂商,在联网、时新类搜索上一般表现更好。
比如腾讯元宝接入微信搜一搜,搜狗搜索引擎。当你询问“现在是否适合购买黄金?”时,它会整理出投行和证券公司最近对黄金价格走势的评估。
元宝在时新类搜索上的回复丨元宝
决定回答质量的另一个因素是“信息源质量”。当前 AI 搜索的工作原理大致如下:用户首先以自然语言的查询进行搜索,查询内容会被重构后输入实时索引中进行信源搜索。搜索结果会被交给语言模型进行阅读,最后将阅读到的信息结构化为一篇有条理的回答。同时,回答中还会附上相关参考链接,以克服“幻觉”问题。然而,需要注意的是,那些教AI说话的“老师”(信源)有时也会胡说八道。
不得不承认,很多高质量的中文内容处于封闭的生态下。最典型的例子,是微信公众号——新近上线的“元宝”,就是得益于做了对微信公众号检索的打通,让人工智能回答的质量得到了巨大提升,甚至可以被当作微信生态内容的一个新入口。
元宝覆盖了微信公众号的内容丨元宝app
一个“聊天框”,通过使用自然语言提问来解决了“不懂如何进行搜索”的问题,而对于可能出现的各种“回答与问题不相关”的情况,这类“智能助理”产品也提供了相应的解决方案。
如果你在“百小应”中问,引擎盖打不开了怎么办?它不会直接泛泛而谈。而是先问什么品牌型号,哪一年的车。聚焦后再生成进一步的回答。通过多轮对话明确问题,搜索少量(不只调用通用搜索,也需要垂直搜索能力)的信息源,做出精准的回答。
AI主动向用户提问丨百小应
一些AI产品中的“灵感提示”、“追问”也都是为了引导用户提出更加准确的问题。
回到讨论的核心。助手类产品的意义是什么?答案或是,提升用户解决问题的效率,帮助用户更快地完成任务。
还是以这些AI应用程序通用的主界面为例,AI搜索对话框背后的功能包括问题的拆解和相应模型的调用。这些功能包括翻译搜索结果、将结果转换为语音输出、生成结构化大纲等等。根据用户的特定需求,产品可以分别调用翻译模型、文本到语音模型,以及对于专业问题(需要特定信息来源)进行论文文献搜索。
左滑看AI对搜索结果生成脑图丨天工
这种多功能组合,是今天智能助理 app中集成大量智能体的原因之一。甚至,面对更多长尾需求,产品允许用户自建智能体。无论是通过自然语言,简单地构建一个智能体;
智能体们丨豆包app
还是开放给专业开发者(至少是有编程思维的人),以自建workflow(工作流)的方式构建智能体。
仍然向专业开发者(至少是具备编程思维的人)开放,让他们通过自建workflow(工作流)的方式来构建智能体。
创建智能体丨扣子
普通用户对这类应用的日常需求已经呈现出一个清晰的主线:如何满足娱乐和如何提升工作效率。
人工智能(AI)产品的整体渗透率仍然不到1%,各家公司之间并没有明显的差距。就功能而言,这些产品在很大程度上都处于同质化的状态。如果我们深入探究原因,可能是因为技术能力相对来说也是同质化的。回想一下,这种情况是否与当年各种同质化的手机应用创业很相似呢?
一个好的智能助手,必须能够帮助我与老板进行有效的沟通和解决问题
PC端与移动端产品的用户体验,各有优势。处理逻辑复杂,操作繁多的工作流(对于使用人工智能类产品,尤其当涉及到上传多个文件、对内容进行二次创作等),PC端用起来更加方便。
那么移动端的优势是什么?至少一个智能助理,听起来应该像一个可以随身携带的“百事通”。
GPT-4o发布中的一个惊喜是,语音交互变得更加流畅和顺畅——延时缩短到几乎不可察觉的程度,AI助手能够理解语气词,并增加了情感表达的能力。当我们感受到“对方”能够自主调整声音的高低,我们会不自觉地将其看作成人,与之进行交互的频率也会越来越高。
如今许多厂商将“语音交互入口”设为默认的交互界面。为了提升语音交互体验,他们进行了一系列优化,其中包括但不限于使用基于大模型的ASR(自动语音识别)技术,以及超自然的TTS(语音合成)音色。
将语音设置为默认交互方式丨左文心一言,右豆包
最近,Arc Search(一款浏览器产品)推出了一个名为“Call Arc”的功能。当用户执行打电话手势时(举起手机,贴近耳旁),该功能能够直接将用户连接到与AI搜索聊天的界面,这是移动端AI产品更为“激进”的尝试。
GPT-4o(还有Gemini Live)本质是多模态的进步。他们都在重新定义大模型产品的人机交互标准。所谓多模态,是指能够像人一样具备视觉、听觉、语言、触觉等感知能力,并能够利用手机上的各种传感器(如摄像头、麦克风等)进行交互。移动设备在这方面具有天然的优势。行业普遍认为,未来的发展方向是提升底座语言模型的能力,并将多模态能力进行统一融合。
GPT-4o“看相”丨OpenAI
效率另外的提升,来自人工智能与原有产品生态形成联动。大型人工智能模型厂商已经在进行尝试。
比如在钉钉(与饿了么合作)的群聊中,可以使用自然语言的方式进行点单和拼单,例如说“我要点20杯拿铁,少冰,加浓”,无需离开群聊即可一键付款。
如何充分利用手机上的“个性化”信息,也是这类应用程序提高效率和优化使用体验的关键——理论上,如果人工智能应用程序能够使用地图导航应用程序和机票旅行应用程序的购买偏好数据,就能够为用户安排出行。类似地,利用本地实时信息可以创造许多具有高价值的场景。
“我就期待能有这样的搜索,跟微信联动起来,当老板生气地逼问我为什么没有完成他交代的任务时,我就当着他的面让AI立刻查查,他到底说过没有!”——我有一个朋友这么说到。
的确,没有比这个价值更高的场景了。