test2
收藏OpenDataLab2026-05-17 更新2024-05-25 收录
下载链接:
https://opendatalab.org.cn/Huanhuan/DataLab
下载链接
链接失效反馈官方服务:
资源简介:
数据集介绍
简介
大模型多轮对话SFT数据集_中文由来自中国7个省份 (江苏、四川、山东、山西、北京、广东、海南)的663名说话人独家贡献,北京晴数智慧科技有限公司进行采集。每组对话由两名说话人围绕一个主题展开,历史的对话与当前的内容密切相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力。
数据组成
包含16932轮中文自然对话句子,涉及【个人特质、家庭生活、健康、教育、经济、军事战争、科技、科学技术、气候环境、人际关系、数码产品、体育竞技、文旅、休闲娱乐、衣食住行、艺术美术、政治法律、职业发展】18个主题。
Statistics MagicData-CLAM-Conversation_CN
#Dialogue 343
#Turns 16932
#Topics 18
Avg. #Turns per Dialogue 49
Avg. #Tokens per Turn 80
提供机构:
Huanhuan
创建时间:
2024-05-23



