GPT4o的能力（gpt-4）

GPT-4o 是 OpenAI 在 2023 年春季发布会上推出的一款多模态大型语言模型。它具有更强大的语言理解和生成能力，以及更好的视觉和语音处理能力。

GPT-4o 可以将音频整理成会议记录、翻译语言、总结音频、创建语音角色、跨语音类型合成、长格式和短格式语音合成、跨语言合成等。在视觉方面，它可以生成更符合提示的图像、总结视频、创建 3D 资产、光学字符识别等。

此外，GPT-4o 还具有内置的安全性，通过过滤训练数据和通过训练后改进模型行为等技术，在设计上具有跨模态的安全性。同时，OpenAI 还创建了新的安全系统，为语音输出提供护栏。

在模型评估方面，OpenAI 根据其准备框架和自愿承诺，对网络安全、CBRN、说服力和模型自主性等方面进行了评估。评估结果表明，GPT-4o 在这些类别中的任何一个类别中的得分都不超过中等风险。

在模型可用性方面，GPT-4o 现在可以作为文本和视觉模型在 API 中访问。与 GPT-4 Turbo 相比，GPT-4o 的速度快 2 倍，价格减半，速率限制高出 5 倍。OpenAI 计划在未来几周内向 API 中的一小群受信任的合作伙伴推出对 GPT-4o 新音频和视频功能的支持。