666条数据教会AI写万字长文！模型数据集都开源（666条）

原标题：666条数据教会AI写万字长文！模型

数据集都开源

关键字：数据,模型,长度,文本,团队

文章来源：量子位

内容字数：0字

魔搭ModelScope团队投稿量子位 | 公众号 QbitAI仅需600多条数据，就能训练自己的长输出模型了？！

事情是酱婶儿的——

虽然大模型的上下文(Context)支持越来越长，但包括GPT-4

o，Llama-3.1-70B，Claude 3.5 Sonnet在内的这些业界领先模型，在用户指定所需输出长度的情况下，其最大输出长度仍无法满足要求。

例如，针对“写一篇关于罗马帝国历史的10000字文章”的要求，所有这些通用模型在输出长度上均无法超过2000字。

对此，基于GLM4-9B，智谱通过构建长输出的训练数据得到了LongWriter-GLM4-9B模型，能够应对超长输出（10000+ words）场景。

与此同时，智谱开源了训练该模型所需的长输出文本数据集LongWriter-6K。

现在，魔搭社区上基于LongWriter-6K过滤精选了666条数据（LongWriter-6K-Filtered），也一并开源了。

有啥用？？

一句话，使用该数据集，你就能在自己的模型中集成长输出能力了。

LongWriter数据生成与模型训练通过分析训练SFT数据，团队发现对于“模型无法

文章来源：量子位

作者微信：

作者简介：