OpenAI很快推出了一种多模态人工智能助理,它不仅可以进行交谈,还可以进行物体识别。(openai很牛吗)

5月12日消息,据The Information报道,OpenAI已经向一些客户展示了一种全新的多模态人工智能模型。这个模型不仅可以与用户进行对话,还能够准确地识别物体。

据一位未透露姓名的消息人士透露,这可能是该公司计划在周一展示的一部分内容。

据报道,与现有的单独转录和文本转语音模型相比,新模型可以更快、更准确地解释图像和音频内容。

The Information写道,它显然能够帮助客户服务代理更好地理解呼叫者的语调,或者他们是否在讽刺,并且理论上,该模型可以帮助学生学习数学或翻译现实世界的手势。

据该媒体的消息来源称,这个模型在回答某些特定类型的问题方面表现出了超越GPT-4Turbo的能力,但仍然存在一定的错误率。

开发人员 Ananay Arora 发布了上述通话相关代码的屏幕截图,他表示 OpenAI 也可能正在准备新的内置 ChatGPT 功能来进行电话通话。

Arora 还发现了OpenAI 已经找到了用于实时音频和视频通信的服务器的证据。

根据首席执行官 Sam Altman 的明确否认,下周公布的公告与被认为比 GPT-4“实质上更好”的模型无关,因此这一公告并不是关于 GPT-5 的。然而,据称 GPT-5 可能会在今年年底公开发布。

奥特曼还表示,该公司目前没有计划宣布推出新的人工智能搜索引擎。

但如果The Information 的报道属实,那么谷歌 I/O 开发者大会的进展仍可能会受到一些影响。谷歌一直在测试使用人工智能打电话。传闻中的项目之一是名为Pixie的多模式 Google Assistant 替代品,它可以通过设备的摄像头查看物体,并执行诸如指示购买地点或提供如何使用它们的说明等操作。

无论 OpenAI 计划发布什么内容,它都计划于每周一上午 10 点(太平洋时间)/下午 1 点(东部时间)在其官方网站上进行直播。

0
分享到:
没有账号? 忘记密码?