AIGC动态欢迎阅读
集创建与评估
关键字:模型,数据,问题,质量,报告文章来源:智猩猩GenAI
内容字数:0字内容摘要:
今年6月,大模型公司Imbue预训练了一个70B参数的模型,并在多选推理基准上进行了微调。在这些基准上,Imbue微调的模型超越了GPT-4
o zero-shot表现(该模型未在这些基准上进行微调)。Imbue的微调模型,基于2万亿个Token进行预训练,其性能也接近于在超过7倍数据量上预训练的Llama3 70B微调模型的性能。
由于他们在没有使用思维链的情况下评估了GPT-4o zero-shot的性能,因此上文指出的性能表现并不代表它在这些数据集上能达到的最佳成绩。然而,这是与微调后的70B模型评估最直接的对比,这些评估同样不包括思维链。
通过使用他们提出的超参数优化器CARBS,他们在首次尝试时将该系统规模扩展到70B参数,同时保持训练过程中的最小不稳定性,并未出现损失激增的情况。这涉及到训练数千个密集型Transformer模型,具有分组查询注意力、SwiGLU激活、RMS归一化和自定义词元分词器,并在一系列较小规模的范围内训练。
为了方便其他团队进行训练、扩展和评估针对各自研究和产品目标的模型,他们正在发布促进这项工作的工具。
本文中,他们要分享的是用于模型评估的数据集,包联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介: