GPT4o的能力(gpt-4)

GPT-4o 是 OpenAI 在 2023 年春季发布会上推出的一款多模态大型语言模型。它具有更强大的语言理解和生成能力,以及更好的视觉和语音处理能力。

GPT-4o 可以将音频整理成会议记录、翻译语言、总结音频、创建语音角色、跨语音类型合成、长格式和短格式语音合成、跨语言合成等。在视觉方面,它可以生成更符合提示的图像、总结视频、创建 3D 资产、光学字符识别等。

此外,GPT-4o 还具有内置的安全性,通过过滤训练数据和通过训练后改进模型行为等技术,在设计上具有跨模态的安全性。同时,OpenAI 还创建了新的安全系统,为语音输出提供护栏。

在模型评估方面,OpenAI 根据其准备框架和自愿承诺,对网络安全、CBRN、说服力和模型自主性等方面进行了评估。评估结果表明,GPT-4o 在这些类别中的任何一个类别中的得分都不超过中等风险。

在模型可用性方面,GPT-4o 现在可以作为文本和视觉模型在 API 中访问。与 GPT-4 Turbo 相比,GPT-4o 的速度快 2 倍,价格减半,速率限制高出 5 倍。OpenAI 计划在未来几周内向 API 中的一小群受信任的合作伙伴推出对 GPT-4o 新音频和视频功能的支持。

0
分享到:
没有账号? 忘记密码?