OpenAI最新推出了一款强大的大模型,这标志着自然人机交互领域迈出了重要的一步。(openmv和openvc区别)

近日,美国人工智能公司OpenAI在其春季发布会上展示了新一代旗舰生成模型GPT-4o。接入GPT-4o的ChatGPT语音助手,能够与用户进行实时对话,并且能够从语音中分辨用户是否紧张。此外,它还可以通过前置摄像头观察用户的面部表情,并分析其情绪变化。此外,它还可以充当家教老师,在线教孩子解数学题。这款语音助手不仅能听、能看、能说,而且具备人类级别的响应时间和表达能力。因此,许多网友惊叹不已,称其为大模型从“呆瓜”变成了“真人”!

作为人工智能大模型浪潮的领航者,OpenAI这次发布展现了人工智能大模型的两个新趋势。

OpenAI大模型上新,自然人机交互迈出重要步伐_图1

一方面,随着应用端需求的不断进化,大模型的商业价值也变得更加突出。

GPT-4o之前,用户以语音模式与ChatGPT对话,需要经过音频转文本、文本处理和文本转音频这三个模型来实现。平均延迟分别为2.8秒(GPT-3.5)和5.4秒(GPT-4)。GPT-4o是OpenAI的首个“端到端多模态大模型”,其中的“o”代表omni,即“全能”的意思。它使用一个模型同时处理文本、视觉和音频的输入输出,所有的输入和输出都由同一个神经网络完成。这使得它的反应速度有了质的提升。GPT-4o可以在短至232毫秒、平均320毫秒的时间内响应音频输入,与人类在对话中的反应速度一致。这意味着高端人工智能产品更接近于一个自然人,向自然人机交互迈出了重要的一步。

GPT-4o在资源消耗和响应速度上进行了优化,达到了与GPT-4Turbo相当的能力,且降低50%的推理成本,打开了商业推广的空间,更有利于在智能手机、智能电脑等个人终端上实现端侧应用。在消费终端,用户需求多样化且变化迅速,需要提升交互界面的友好性和易用性,让用户获得流畅、自然的交互体验。GPT-4o向具备情绪价值和自然交互能力的方向进化,意味着大模型在端侧的落地更进一步,有望开启下一波科技应用和商业模式的革命,出现人工智能的国民级应用。

另一方面,随着大型模型技术的发展速度放缓,带来的风险和不确定性也在增加。

OpenAI并没有推出备受期待的GPT-5,这让许多业内人士推测,OpenAI的技术迭代路线“用更多大数据炼更大模型”可能已经遇到了瓶颈,国内底层大模型加速追赶的机会或许已经到来。人们还期待GPT-5能够解决当代大模型存在的最大问题——幻觉(胡编乱造),因为这会影响大模型的可靠性。然而,这个问题在GPT-4o中并没有得到解决。一些网友在试用中发现,GPT-4o会认字但不会写字,如果让它输出一张含有特定文字内容的手写字体图画,它会写出谁都看不懂的自造字。此外,OpenAI去年发布的GPT-4模型仅限付费用户使用,而今年宣布新模型GPT-4o则对所有用户免费开放,功能全部免费。OpenAI开始提供免费服务,可能是因为GPT的用户增长和收入增长都已经遇到了瓶颈。

从卷参数、卷文本长度再到卷多模态,大模型的竞争一直很激烈。随着当前人工智能技术的快速发展,大模型技术路径和商业模式的多样性和不确定性增加,商业投资风险也随之增加。对国产大模型来说,风险也是机遇。比如,全球首个三模态大模型其实是2021年7月中国发布的“紫东太初”。不管大模型赛道往什么方向去,中国都有基础,也应该有信心打开更广阔的应用商业化空间。

0
分享到:
没有账号? 忘记密码?