大模型多轮对话SFT数据集_中文
收藏始智AI2024-05-31 更新2024-06-01 收录
下载链接:
https://wisemodel.cn/datasets/MagicData/MAGICDATA-CLAM-CONVERSATION_CN
下载链接
链接失效反馈资源简介:
为了能够让大家更好的理解我们的多轮对话数据集,我们选取了十万轮作为本次开源的“大模型多轮对话SFT数据集_中文”,其来源于晴数智慧LLM多领域超自然SFT多轮对话文本数据集。本次开源的部分数据,由来自中国的644名不同ID的采集人独家贡献,北京晴数智慧科技有限公司进行授权采集。每组对话由两位采集人围绕一个主题展开,上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力,以及端到端对话大模型。
提供机构:
始智AI
创建时间:
2024-05-31
AI搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个中文多轮对话SFT数据集,包含97184轮自然对话句子,覆盖家庭生活、教育医疗等15个主题,由644名采集人围绕特定主题展开对话,语料真实且情感丰富。它专为训练大模型的多轮对话能力、上下文逻辑推理和端到端对话模型设计,采用CC BY-NC-ND 4.0许可,仅限非商业使用。
以上内容由AI搜集并总结生成



