AI感知（智能感知系统）

AI 感知模块的设计初衷是极大地拓展 Agent 的感知视野，使其不限于文字范畴，而是融合文字、听觉和视觉等多种模态，更接近人类感知和理解世界的方式。

在文本输入方面，AI Agent 能通过文本与人类交流，理解用户文本中的明确内容及隐含的信念、愿望和意图。借助强化学习技术，它能感知并推断用户偏好，实现个性化和准确回应，还具有零样本学习能力，能处理新任务而无需特定任务微调。

在视觉输入方面，为 AI Agent 提供丰富环境信息，包括物体属性、空间关系和场景布局。Agent 能通过生成图像的文本描述来理解图像内容，Transformer 模型的应用使其能直接对视觉信息编码和整合，提高视觉感知能力。通过在视觉编码器和 LLM 间添加可学习接口层，能更好地对齐视觉和语言信息。

在听觉输入方面，暂未提供详细内容。

猜你喜欢