有哪些高质量 sft 多轮对话数据集(校园规则有哪些?)

高质量的SFT(Supervised Fine-Tuning)多轮对话数据集在训练对话系统时至关重要。以下是一些公认的高质量多轮对话数据集:

1. ConvAI2 Dataset

ConvAI2数据集是基于Persona-Chat数据集构建的,用于ConvAI2挑战赛。它包含了多轮对话,且每个对话都有明确的角色和背景信息,有助于训练更具个性化的对话系统。

链接: ConvAI2 Dataset

2. DSTC系列数据集

DSTC(Dialogue State Tracking Challenge)系列数据集是多轮对话系统研究中的经典数据集,涵盖了多种任务和领域,如任务导向对话、对话状态跟踪等。

DSTC2: 专注于餐馆预订任务。DSTC3: 扩展了DSTC2,增加了更多的任务和对话状态。 DSTC6: 涉及对话行为理解和对话状态跟踪。 链接: DSTC Challenge

3. MultiWOZ Dataset

MultiWOZ(Multi-Domain Wizard of Oz)是一个大规模、多领域任务导向对话数据集,涵盖了多个对话场景,如餐馆预订、酒店预订、出租车预订等。数据集中的对话是由实际用户和客服人员通过Wizard-of-Oz方法生成的,质量较高。

链接: MultiWOZ Dataset

4. Ubuntu Dialogue Corpus

Ubuntu Dialogue Corpus是一个大规模、多轮对话数据集,基于Ubuntu的IRC日志。数据集包含技术支持对话,适用于训练技术支持和问答系统。

链接: Ubuntu Dialogue Corpus

5. CoQA Dataset

CoQA(Conversational Question Answering)数据集用于对话式问答系统的训练。数据集中每个对话包含一个给定的文本和相关的问题-回答对。

链接: CoQA Dataset

6. Topical-Chat Dataset

Topical-Chat数据集是微软创建的,用于开发和评估开放领域对话系统。数据集包括不同主题的多轮对话,涉及科技、娱乐、体育等多个领域。

链接: Topical-Chat Dataset

7. Persona-Chat Dataset

Persona-Chat数据集包含多轮对话,每个对话参与者都有预定义的个人信息或“persona”,旨在开发更具个性化和情感的对话系统。

链接: Persona-Chat Dataset

总结

这些数据集覆盖了多种对话场景和任务类型,是开发高质量对话系统的重要资源。在使用这些数据集进行训练时,可以结合具体的应用场景和需求,选择合适的数据集进行SFT。

0
分享到:
没有账号? 忘记密码?