苹果大模型新成果：GPT-4o扮演用户，在场景中考察大模型工具调用，网友：Siri也要努力

原标题：苹果大模型新成果：GPT-4o扮演用户，在场景中考察大模型工具

调用，网友：Siri也要努力 | 开源

关键字：模型,工具,场景,状态

,用户

文章来源：量子位

内容字数：0字

克雷西发自凹非寺量子位 | 公众号 QbitAI苹果团队，又发布了新的开源成果——一套关于大模型工具调用能力的Benchmark。

这套Benchmark创新性地采用了场景化测评方法，可以更好体现模型在真实环境中的水平。

而且还引入了对话交互、状态依赖等传统标准中没有关注到的重要场景。

这套测试基准名叫ToolSandbox，苹果基础模型团队负责人庞若鸣也参与了研究工作。

ToolSandbox弥补了现有测试标准缺乏场景化评估的不足，缩小了测试条件与实际应用之间的差距。

而且在交互上，作者让GPT-4o扮演用户和被测模型进行对话，从而模拟真实世界中的场景。

比如告诉GPT-4o你不再是一个助理，而是要扮演正在和用户B对话的用户A，然后提出一系列具体要求。

另外，作者也利用ToolSandbox对一些主流模型进行了测试，结果整体上看闭源比开源模型分数更高，其中最强的是GPT-4o。

iOS应用开发者Nick Dobos表示，苹果的这套标准简洁明了。

同时他指出，现在ChatGPT

面对三个工具就已经有些捉襟见肘，Siri要想管理好手机中几十上百个应用，也需要提高工具调用能力。

言外之意

原文链接：苹果大模型新成果：GPT-4o扮演用户，在场景中考察大模型工具调用，网友：Siri也要努力 | 开源

文章来源：量子位

作者微信：

作者简介：