five

LLM-SFT-Dataset

收藏
魔搭社区2025-11-12 更新2025-06-14 收录
下载链接:
https://modelscope.cn/datasets/OmniData/LLM-SFT-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
# 数据集介绍 ## 简介 为了能够让大家更好的理解我们的多轮对话数据集,我们选取了十万轮作为本次开源的大模型多轮对话SFT数据集,其来源于晴数智慧LLM多领域超自然SFT多轮对话文本数据集。本次开源的部分数据,由来自中国的644名不同ID的采集人独家贡献,北京晴数智慧科技有限公司进行授权采集。每组对话由两位采集人围绕一个主题展开,上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力,以及端到端对话大模型。 ## 数据组成 包含97184轮中文自然对话句子,涉及【家庭生活、教育医疗、军事战争、科学技术、气候环境、人文科学、商业经济、数码产品、体育竞技、休闲娱乐、衣食住行、艺术美术、政治法律、职业发展、宗教信仰】15个主题。领域覆盖多样,也可以单独抽取相关领域的数据进行领域SFT。 | Statistics | MagicData-CLAM-Conversation_CN | | :---- | :---- | | #Dialogue | 322 | | #Turns | 97184 | | #Topics | 15 | | Avg. #Turns per Dialogue | 302 | | Avg. #Tokens per Turn | 25 | ## 数据特点 1、语料真实,情感丰富 晴数智慧高质量大模型多轮对话SFT数据集源自真实的人类自然交谈,语言表达自然且丰富,充满了个人特色,情感表达也非常自然。这使得在训练大模型SFT时,能够更加拟人化,提高对话的质量和真实感。 2、领域相关 在每一组多轮对话,两位说话人围绕一个主题开展自然对话,能帮助模型学习并掌握人类的领域知识和逻辑,从而实现更精准的对齐。语料话题分布广泛,涉及休闲娱乐、衣食住行、教育医疗等近15个领域 3、高表现力 贴合场景的自由对话赋予了数据极高的表现力,高表现力的数据带来的丰富信息维度能够使得模型更容易学到人类自然交谈的特点,从而实现更强大、泛化能力更好的模型性能。 ## 数据处理 1、数据分布设计 由晴数智慧数据专家设计数据分布,数据语料多样化的领域内容,采集人多样化,为大模型多轮对话能力的泛化和可迁移性提供了可能性。 2、数据处理 采用Human-in-the-loop的数据处理方式,即机器自动化数据清洗结合人工干预的方式,通过人机协作多轮处理,使得数据更加满足高品质要求。 3、数据合规措施 本数据集处理过程遵循完整的晴数智慧数据合规保障机制,确保数据版权完整。 ## 数据样例 ```json 游戏主题: B: 他们那边很多人十五六岁就打游戏,打得很厉害,还经常打游戏,并且有电竞相关法律,比如找别人代练打游戏是犯法的。 B: 从这一点可以看出,他们重视体育电竞。 A: 嗯。 B: 他们的电竞事业比中国发展得早,成熟得早。 B: 去年中国的IG拿到了英雄联盟世界赛的第一个冠军。 A: 对。 B: IG去年拿了一次冠军,在中国可以说没有一个圈子不在吹捧IG牛逼。 B: 中国IG为中国赛区拿了第一个世界冠军,然后就在吹。 B: 其实IG这支战队里还有韩国人。 A: 还有一个。 B: 韩国人嘛,然后其实上单theshy和中单rookie,都是韩国人嘛。 B: 然后其实这两个人在IG里还是很重要的。 B: 然后可以说每次打比赛,韩国人的数量总是比中国的多。 B: 就像这次世界赛,中国有三支队伍,但是中国队员只有九个,韩国队员有二十八名。 A: 是他的两三倍。 B: 就是各个国家的参赛人员,我们LPL赛区的三支队伍,本来有十五个人,只有九个人是中国人。 B: 除了RNG全华班以外,其余的FPX和IG全部都有韩援。 B: 说到韩援,我们中国的电竞很多俱乐部和战队都很喜欢引入韩援,因为韩国人打比赛特别牛特别厉害。 B: 然后也不存在什么国籍问题,电子竞技俱乐部就很喜欢引入韩援,通过韩援取得胜利。 B: 然后大部分的俱乐部都开始大量引入韩援。 B: 就是这样,去年IG拿完冠军,也有韩援的因素。 B: 然后今年的参赛队伍,从参赛人员来看,也可以看出韩国人的电子竞技搞得特别牛逼。 A: 嗯。 B: 所有参赛队伍中,中国有九个人排第二,韩国有二十八人。 B: 从这能看出,韩国人打电竞很厉害。 A: 那今年哪个国家是冠军? B: 要等到明天决赛才知道。你看明天八点FPX打G2,FPX是中国赛区LPL的一号种子,这次首次杀入决赛,成绩不错。 B: G2是欧洲一号种子,阵容很豪华,就看明天结果了。 A: 嗯。 B: FPX里有两个韩国人,上单gimgoon和中单doinb。 B: 像doinb这样的韩援都是良心韩援,在中国赛区打比赛,都会用中文说LPL加油。 B: 其实没必要太在乎国籍,有些人喜欢全华班RNG,不喜欢有韩援的队伍。 B: 去年IG拿了世界冠军,还有人说IG偷走了RNG的冠军。 B: 这种说法没必要,从韩援问题能看出,中国赛区的电竞发展不如韩国。 ``` ## 数据集许可 晴数智慧高质量大模型多轮对话SFT数据集采用[CC BY-NC-ND 4.0](https://creativecommons.org/licenses/by-nc-nd/4.0/)和[MAGIC DATA OPEN-SOURCE LICENSE](https://magichub.com/magic-data-open-source-license/)。在使用数据之前,请务必仔细阅读相关协议,确保合规使用。 ## 特别注意事项 本开源数据集仅可用于非商业使用。 ## Download dataset :modelscope-code[]{type="git"}

# Dataset Introduction ## Overview To help everyone better understand our multi-turn conversational dataset, we selected 100,000 turns as the open-source large language model (LLM) multi-turn supervised fine-tuning (SFT) dataset, which is derived from QingShu Wisdom's LLM multi-domain ultra-natural SFT multi-turn conversational text dataset. The partially open data this time is exclusively contributed by 644 collectors with unique IDs from China, and authorized by Beijing QingShu Wisdom Technology Co., Ltd. Each group of conversations is conducted by two collectors around a single topic, where the contextual dialogue is logically relevant to the current content. It is suitable for training LLMs on multi-turn back-and-forth conversation, contextual logical reasoning, and end-to-end conversational LLMs. ## Data Composition The dataset contains 97,184 turns of Chinese natural conversational sentences, covering 15 topics including [Family Life, Education & Healthcare, Military Affairs, Science & Technology, Climate & Environment, Humanities, Business & Economics, Digital Products, Sports, Leisure & Entertainment, Daily Life, Art & Fine Arts, Politics & Law, Career Development, Religious Beliefs]. The diverse domain coverage also allows users to extract relevant domain data for targeted domain SFT. | Statistics | MagicData-CLAM-Conversation_CN | | :---- | :---- | | #Dialogue | 322 | | #Turns | 97184 | | #Topics | 15 | | Avg. #Turns per Dialogue | 302 | | Avg. #Tokens per Turn | 25 | ## Data Characteristics 1. Authentic and Emotionally Rich QingShu Wisdom's high-quality LLM multi-turn conversational SFT dataset is derived from real human natural conversations, with natural and rich language expressions, distinct personal styles, and authentic emotional expressions. This enables more anthropomorphic training when fine-tuning LLMs, improving the quality and realism of the dialogues. 2. Domain-Specific In each group of multi-turn conversations, two speakers conduct natural dialogues around a single topic, helping the model learn and master human domain knowledge and logic to achieve more precise alignment. The corpus covers a wide range of topics, involving nearly 15 fields such as leisure & entertainment, daily life, education & healthcare. 3. High Expressiveness Scene-aligned free dialogues endow the dataset with high expressiveness. The rich information dimensions brought by such high-quality data enable models to more easily learn the characteristics of natural human conversations, leading to more powerful and generalizable model performance. ## Data Processing 1. Data Distribution Design The data distribution is designed by data experts from QingShu Wisdom. The diverse domain contents and varied collectors of the corpus provide possibilities for the generalization and transferability of LLMs' multi-turn conversation capabilities. 2. Data Processing A Human-in-the-loop data processing approach is adopted, combining automated machine data cleaning with manual intervention. Through multi-round human-machine collaborative processing, the data better meets high-quality requirements. 3. Data Compliance Measures The entire dataset processing process follows the complete data compliance guarantee mechanism of QingShu Wisdom, ensuring complete copyright of the data. ## Data Sample json Game Topic: B: 他们那边很多人十五六岁就打游戏,打得很厉害,还经常打游戏,并且有电竞相关法律,比如找别人代练打游戏是犯法的。 B: 从这一点可以看出,他们重视体育电竞。 A: 嗯。 B: 他们的电竞事业比中国发展得早,成熟得早。 B: 去年中国的IG拿到了英雄联盟世界赛的第一个冠军。 A: 对。 B: IG去年拿了一次冠军,在中国可以说没有一个圈子不在吹捧IG牛逼。 B: 中国IG为中国赛区拿了第一个世界冠军,然后就在吹。 B: 其实IG这支战队里还有韩国人。 A: 还有一个。 B: 韩国人嘛,然后其实上单theshy和中单rookie,都是韩国人嘛。 B: 然后其实这两个人在IG里还是很重要的。 B: 然后可以说每次打比赛,韩国人的数量总是比中国的多。 B: 就像这次世界赛,中国有三支队伍,但是中国队员只有九个,韩国队员有二十八名。 A: 是他的两三倍。 B: 就是各个国家的参赛人员,我们LPL赛区的三支队伍,本来有十五个人,只有九个人是中国人。 B: 除了RNG全华班以外,其余的FPX和IG全部都有韩援。 B: 说到韩援,我们中国的电竞很多俱乐部和战队都很喜欢引入韩援,因为韩国人打比赛特别牛特别厉害。 B: 然后也不存在什么国籍问题,电子竞技俱乐部就很喜欢引入韩援,通过韩援取得胜利。 B: 然后大部分的俱乐部都开始大量引入韩援。 B: 就是这样,去年IG拿完冠军,也有韩援的因素。 B: 然后今年的参赛队伍,从参赛人员来看,也可以看出韩国人的电子竞技搞得特别牛逼。 A: 嗯。 B: 所有参赛队伍中,中国有九个人排第二,韩国有二十八人。 B: 从这能看出,韩国人打电竞很厉害。 A: 那今年哪个国家是冠军? B: 要等到明天决赛才知道。你看明天八点FPX打G2,FPX是中国赛区LPL的一号种子,这次首次杀入决赛,成绩不错。 B: G2是欧洲一号种子,阵容很豪华,就看明天结果了。 A: 嗯。 B: FPX里有两个韩国人,上单gimgoon和中单doinb。 B: 像doinb这样的韩援都是良心韩援,在中国赛区打比赛,都会用中文说LPL加油。 B: 其实没必要太在乎国籍,有些人喜欢全华班RNG,不喜欢有韩援的队伍。 B: 去年IG拿了世界冠军,还有人说IG偷走了RNG的冠军。 B: 这种说法没必要,从韩援问题能看出,中国赛区的电竞发展不如韩国。 ## Dataset License The high-quality multi-turn conversational SFT dataset for LLMs from QingShu Wisdom is licensed under [CC BY-NC-ND 4.0](https://creativecommons.org/licenses/by-nc-nd/4.0/) and [MAGIC DATA OPEN-SOURCE LICENSE](https://magichub.com/magic-data-open-source-license/). Please carefully read the relevant agreements before using the dataset to ensure compliance. ## Special Notes This open-source dataset is only permitted for non-commercial use. ## Download dataset :modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-01
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
LLM-SFT-Dataset是一个开源的大模型多轮对话监督微调数据集,包含97,184轮自然中文对话,覆盖家庭生活、教育医疗、科技等15个主题领域。该数据集源自644位收集者的真实对话,具有高真实性和表达性,适用于训练大模型的多轮对话能力和上下文逻辑推理,但仅限非商业用途。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作