中国首个流式多模态互动模型，实时且丝滑的 GPT-4o 爆点（流式架构）

没等到GPT-4o，商汤先把《Her》给发布出来了！

就在刚刚，商汤直接在现场来了个炸裂的现场直播秀，话不多说，直接看效果：

不仅声音非常非常像人（观众直呼好磁性），而且还是即时、随时可以中断的那种！

它宛如被安上了一对儿眼睛，可以做到精准无误的所见即所得。

它就像被装上了一双眼睛，能够精确地实现所见即所得。

就连手绘的粗糙的简笔画，人工智能也能灵活地与人类进行互动：

一场Live Show演出之后，观众掌声雷动，赞叹声不断。

这就是商汤发布的国内首个流式原生多模态交互模型——6000亿参数日日新5.5系列中的50所达到的效果。

据了解，这是一种全新的人工智能交互模式，将文本、声音、图像以及视频等多种模态整合在一起，能够使人工智能与人类交流变得更加生动丰富。

可以说这是电影走进现实的真正体现。

而且商汤CEO徐立现场表示，很快就可以用上了！

1. 中国首个流式多模态互动模型，实时且丝滑的 GPT-4o 爆点。_图1

但新的AI交互模型，并非商汤在这次发布中的全部内容。

纵观整场活动，商汤可以说是围绕着日日新5.5，把多模态这事给玩儿得66的。

原文内容无法合理扩写或翻译。

各位观众，让我们继续向下看。

计算机巨头们“焕发了活力”

你没有看错，商汤用新人工智能技术进行了另一项有趣的工作，就是“复活”了图灵、冯诺依曼等计算机领域的伟大人物。

并且还致敬了已故的人工智能科学家，商汤科技创始人汤晓鸥老师，徐立表示：

致敬我们的创始人汤晓鸥教授对人工智能的坚定信念和对人才培养的重视，奠定了我们今天可以站在这里与大家分享关于人工智能的一些想法。

请看视频录像机：

这个新AI，名叫Vimi，是基于最新的日日新5.5技术能力打造的首个可以生成可控人物视频的大规模人工智能模型。该模型能够生成高度自定义和精准控制的人物视频，满足各种创意和商业需求。

而且是只需要一张风格各异的照片就能完成、任何普通用户都可以使用、长达60秒的那种。

要知道，“人物可控”这事一直是用大模型搞生成的一道难题，就连Sora在内大模型也面临无法精准控制动作、连续性不稳定（突然变脸）等问题。

但Vimi与众不同，它不仅可以精确地操控人物的面部表情，还能在人物的半身像范围内调整其自然姿态。

并且还可以自动生成与人物相匹配的头发、服装以及背景的变化；在时长方面，更是达到了分钟级别。

由此，如果你想制作像《冰雪女王》这样的大片，那么一张照片就可以实现：

以为这就完了？不，不，不。

你的表情包又要变得更加丰富了

。

1. 中国首个流式多模态互动模型，实时且丝滑的 GPT-4o 爆点。_图2

总而言之，Vimi的推出可以说是对视频创作者们的一大利好，使他们能够选择另一个高质量的人工智能工具。

值得一提的是，Vimi还被这次世界人工智能大会（WAIC）官方授予了最高荣誉——镇馆之宝。

怎么做到的？

对于能够实现上述效果的核心技术，商汤在现场也进行了详细揭示。

一方面是架构。

日日新5.5采用的是混合端边云协同专家架构，可以最大限度发挥云边端协同，降低推理成本。

另一方面是数据。

日日新5.5在模型训练上基于超过10TB tokens高质量训练数据，包括大量合成的思维链数据，其语言理解和交互能力全面升级。

因此，日日新5.5在数学、推理、编程等多个维度相比上个版本有显著的提升，特别是在数学推理（增长了31.5%）、英文理解（增长了53.8%）、指令跟随（增长了26.8%）等核心指标方面。

1. 中国首个流式多模态互动模型，实时且丝滑的 GPT-4o 爆点。_图3

那么这一点又该如何体现呢？权威评测榜单，便是一个很好的印证。

例如根据OpenCompass的评测，日日新5.5的平均分数已经与GPT-4o持平，并且多想细分维度的分数是超越了GPT-4o的。

1. 中国首个流式多模态互动模型，实时且丝滑的 GPT-4o 爆点。_图4

我们不接受999元或99元的价格方案，我们只提供9.9元的全年服务计划。

除了多模态之外，边缘计算，也是此次商汤着重的发力点之一。

1. 中国首个流式多模态互动模型，实时且丝滑的 GPT-4o 爆点。_图5

现在的日日新端侧模型5.5 Lite同样也在性能指标的各维度上做到了全面升级。

基于手机旗舰平台，5.5 Lite首次安装包的耗时仅为0.19秒，相较于之前的版本减少了40%。

它的推理速度提高了15%，达到每秒90.2个汉字的处理速度。

此外，商汤还推出了端侧模型矩阵，其中包括商量Mini写作助手、总结助手和百科助手等专门定制的模型。

这些专项模型在特定场景下展现出卓越的性能，能够满足客户复杂的业务需求，同时也可以为客户提供多种专项模型选择或定制。

而且基于日日新5.5的端侧大模型还做到了“更快更好”，还做到了“节省成本”——每台使用成本最低可达每年9.9元。

1. 中国首个流式多模态互动模型，实时且丝滑的 GPT-4o 爆点。_图6

在企业方面，与商汤达成合作的企业用户已经超过三千家，覆盖领域包括互联网、医疗、金融和编程等等。

1. 中国首个流式多模态互动模型，实时且丝滑的 GPT-4o 爆点。_图7

而说到价格，说到普惠，就不得不提商汤此次提出的“零元Go”计划了：

即日起，成为商汤科技推出的“日日新SenseNova”用户，您将获得一个全面的大礼包，内容包括但不限于调用API、数据迁徙、模型训练等多项免费的专业服务，帮助您更好地利用我们的技术平台提升业务效率。

同时赠送五千万Tokens包，并且派出专属搬家顾问，让新用户入驻新家舒适顺利。

1. 中国首个流式多模态互动模型，实时且丝滑的 GPT-4o 爆点。_图8

那么看完商汤此次的整场发布，我们还需要回答一个问题：

重塑交互为什么重要？

对于这个问题，商汤CEO徐立给出了他的解读：

我曾经的想法是，我们所处的行业虽然很火爆，但尚未达到超级繁荣的阶段。原因在于它尚未真正深入到某个行业的垂直应用中，并引起广泛的变革。

但现在我的想法有所改变，我认为超级时刻和应用应该互相促进，只有超级时刻带来的认知变化，才能最终推动这样一个应用。

因此，应用，或许就成为了决定这个时代是否进入人工智能超级时代的一个关键。

这也是商汤推出流式原生多模态交互模型的原因，因为只有实现了更丰富、更精准的多模态表达，以及更低延迟、更可控的特性，才能使应用更上一层楼。

总而言之，思路已经清晰，技术不断进步，属于人工智能2.0的超级时刻或许正在加速向我们逼近。

猜你喜欢