five

大模型多轮对话SFT数据集_中文

收藏
始智AI2024-05-31 更新2024-06-01 收录
下载链接:
https://wisemodel.cn/datasets/MagicData/MAGICDATA-CLAM-CONVERSATION_CN
下载链接
链接失效反馈
资源简介:
为了能够让大家更好的理解我们的多轮对话数据集,我们选取了十万轮作为本次开源的“大模型多轮对话SFT数据集_中文”,其来源于晴数智慧LLM多领域超自然SFT多轮对话文本数据集。本次开源的部分数据,由来自中国的644名不同ID的采集人独家贡献,北京晴数智慧科技有限公司进行授权采集。每组对话由两位采集人围绕一个主题展开,上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力,以及端到端对话大模型。
提供机构:
始智AI
创建时间:
2024-05-31
AI搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个中文多轮对话SFT数据集,包含97184轮自然对话句子,覆盖家庭生活、教育医疗等15个主题,由644名采集人围绕特定主题展开对话,语料真实且情感丰富。它专为训练大模型的多轮对话能力、上下文逻辑推理和端到端对话模型设计,采用CC BY-NC-ND 4.0许可,仅限非商业使用。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作