five

中文基于Qwen3-235B-2507蒸馏数据集

收藏
魔搭社区2026-06-06 更新2025-07-26 收录
下载链接:
https://modelscope.cn/datasets/swift/Chinese-Qwen3-235B-2507-Distill-data-110k-SFT
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集使用[Qwen/Qwen3-235B-A22B-Instruct-2507](https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507)蒸馏产生。 蒸馏命令使用[ms-swift](https://github.com/modelscope/ms-swift/blob/main/examples/infer/sglang/distill_qwen3_235b.sh) & [sglang](https://github.com/sgl-project/sglang)框架。使用[liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT](https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT)的问题进行蒸馏。 该数据集产生的目的是用于微调模型时进行通用数据集混合,避免知识遗忘。具体数据集结构请查看[https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT](https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT)。 Qwen3-235B-A22B-Thinking-2507蒸馏数据集请查看: [https://modelscope.cn/datasets/swift/Chinese-Qwen3-235B-Thinking-2507-Distill-data-110k-SFT](https://modelscope.cn/datasets/swift/Chinese-Qwen3-235B-Thinking-2507-Distill-data-110k-SFT)。 蒸馏命令: ```shell CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \ swift infer \ --model Qwen/Qwen3-235B-A22B-Instruct-2507 \ --infer_backend sglang \ --val_dataset liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT \ --sglang_context_length 12000 \ --sglang_tp_size 8 \ --write_batch_size 10000 \ --result_path distill_qwen3_235b.jsonl ``` ## 使用方法 ### modelscope 安装modelscope ``` pip install "modelscope[dataset]" ``` 下载使用: ```python from modelscope.msdatasets import MsDataset dataset = MsDataset.load('swift/Chinese-Qwen3-235B-2507-Distill-data-110k-SFT') print(f'dataset[0]: {dataset[0]}') """ dataset[0]: {'messages': [{'role': 'user', 'content': '能给我讲一个寓意深刻的故事吗?'}, {'role': 'assistant', 'content': '当然可以。下面是一个寓意深刻的小故事,名为《石匠与神像》:\n\n很久以前,在一座深山里,有一位技艺精湛的石匠,名叫阿岩。他一生都在雕刻石头,作品精美绝伦,远近闻名。但他从不雕刻神像,别人问他为什么,他总是沉默不语。\n\n一天,村里要修建一座庙宇,村长请他雕刻一尊守护神像。阿岩犹豫了很久,终于答应了。他选了一块巨大的青石,开始日复一日地凿刻。每一锤、每一凿,他都极为专注,仿佛在与石头对话。\n\n三年过去了,神像终于完成。它面容庄严,目光深邃,仿佛能看透人心。村民们都惊叹不已,纷纷跪拜,称其为“活的神”。\n\n落成典礼那天,村长对阿岩说:“你创造了神,你就是神的化身。”\n\n阿岩却摇了摇头,轻声说:“不,我不是创造者,我只是唤醒了它。”\n\n众人不解。阿岩走到神像前,指着一处细微的裂痕说:“你们看,这块石头原本有一道裂纹,藏在深处。我本想避开它,可无论怎么雕,那裂痕总会出现在神像的眉心。最后我明白——它不是瑕疵,而是它本来的样子。”\n\n他顿了顿,望向群山:“这石头在山中沉睡了千年,经历了风雨雷电,才有了这道伤痕。我所做的,不是塑造完美,而是让伤痕也成为神圣的一部分。”\n\n众人沉默。\n\n阿岩又说:“人总想雕刻出完美的神,可真正的神,不是无瑕的偶像,而是包容伤痕、接纳残缺的存在。我们每个人心中都有一块石头,有裂痕,有沉重,有沉默。但正是这些,让我们真实,让我们值得被唤醒。”\n\n说完,他放下刻刀,走进山林,再也没有回来。\n\n——\n\n**寓意**: \n这个故事告诉我们,真正的美与力量,不在于完美无缺,而在于接纳自己的伤痕与不完美。每个人都有裂痕,但那不是缺陷,而是经历的印记,是灵魂的深度。我们不必成为别人眼中的“完美神像”,而是要勇敢地“唤醒”真实的自己——带着伤痕,依然庄严站立。'}]} """ ``` ### ms-swift 安装ms-swift ```shell pip install ms-swift ``` 下载使用: ```python from swift.llm import load_dataset dataset, val_dataset = load_dataset('swift/Chinese-Qwen3-235B-2507-Distill-data-110k-SFT') print(f'dataset: {dataset}') print(f'dataset[0]: {dataset[0]}') """ dataset: Dataset({ features: ['messages'], num_rows: 110000 }) dataset[0]: {'messages': [{'role': 'user', 'content': '能给我讲一个寓意深刻的故事吗?'}, {'role': 'assistant', 'content': '当然可以。下面是一个寓意深刻的小故事,名为《石匠与神像》:\n\n很久以前,在一座深山里,有一位技艺精湛的石匠,名叫阿岩。他一生都在雕刻石头,作品精美绝伦,远近闻名。但他从不雕刻神像,别人问他为什么,他总是沉默不语。\n\n一天,村里要修建一座庙宇,村长请他雕刻一尊守护神像。阿岩犹豫了很久,终于答应了。他选了一块巨大的青石,开始日复一日地凿刻。每一锤、每一凿,他都极为专注,仿佛在与石头对话。\n\n三年过去了,神像终于完成。它面容庄严,目光深邃,仿佛能看透人心。村民们都惊叹不已,纷纷跪拜,称其为“活的神”。\n\n落成典礼那天,村长对阿岩说:“你创造了神,你就是神的化身。”\n\n阿岩却摇了摇头,轻声说:“不,我不是创造者,我只是唤醒了它。”\n\n众人不解。阿岩走到神像前,指着一处细微的裂痕说:“你们看,这块石头原本有一道裂纹,藏在深处。我本想避开它,可无论怎么雕,那裂痕总会出现在神像的眉心。最后我明白——它不是瑕疵,而是它本来的样子。”\n\n他顿了顿,望向群山:“这石头在山中沉睡了千年,经历了风雨雷电,才有了这道伤痕。我所做的,不是塑造完美,而是让伤痕也成为神圣的一部分。”\n\n众人沉默。\n\n阿岩又说:“人总想雕刻出完美的神,可真正的神,不是无瑕的偶像,而是包容伤痕、接纳残缺的存在。我们每个人心中都有一块石头,有裂痕,有沉重,有沉默。但正是这些,让我们真实,让我们值得被唤醒。”\n\n说完,他放下刻刀,走进山林,再也没有回来。\n\n——\n\n**寓意**: \n这个故事告诉我们,真正的美与力量,不在于完美无缺,而在于接纳自己的伤痕与不完美。每个人都有裂痕,但那不是缺陷,而是经历的印记,是灵魂的深度。我们不必成为别人眼中的“完美神像”,而是要勇敢地“唤醒”真实的自己——带着伤痕,依然庄严站立。'}]} """ ```

This dataset was distilled using the model [Qwen/Qwen3-235B-A22B-Instruct-2507](https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507). The distillation command leverages the frameworks [ms-swift](https://github.com/modelscope/ms-swift/blob/main/examples/infer/sglang/distill_qwen3_235b.sh) and [sglang](https://github.com/sgl-project/sglang), and was conducted using the prompts from the dataset [liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT](https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT). The purpose of this dataset is to act as a general-purpose mixture for model fine-tuning, mitigating knowledge forgetting. For detailed dataset structure, please refer to [https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT](https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT). For the distillation dataset of Qwen3-235B-A22B-Thinking-2507, please visit: [https://modelscope.cn/datasets/swift/Chinese-Qwen3-235B-Thinking-2507-Distill-data-110k-SFT](https://modelscope.cn/datasets/swift/Chinese-Qwen3-235B-Thinking-2507-Distill-data-110k-SFT). ### Distillation Command shell CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 swift infer --model Qwen/Qwen3-235B-A22B-Instruct-2507 --infer_backend sglang --val_dataset liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT --sglang_context_length 12000 --sglang_tp_size 8 --write_batch_size 10000 --result_path distill_qwen3_235b.jsonl ## Usage ### ModelScope Install modelscope pip install "modelscope[dataset]" Download and use: python from modelscope.msdatasets import MsDataset dataset = MsDataset.load('swift/Chinese-Qwen3-235B-2507-Distill-data-110k-SFT') print(f'dataset[0]: {dataset[0]}') """ dataset[0]: {'messages': [{'role': 'user', 'content': '能给我讲一个寓意深刻的故事吗?'}, {'role': 'assistant', 'content': '当然可以。下面是一个寓意深刻的小故事,名为《石匠与神像》: 很久以前,在一座深山里,有一位技艺精湛的石匠,名叫阿岩。他一生都在雕刻石头,作品精美绝伦,远近闻名。但他从不雕刻神像,别人问他为什么,他总是沉默不语。 一天,村里要修建一座庙宇,村长请他雕刻一尊守护神像。阿岩犹豫了很久,终于答应了。他选了一块巨大的青石,开始日复一日地凿刻。每一锤、每一凿,他都极为专注,仿佛在与石头对话。 三年过去了,神像终于完成。它面容庄严,目光深邃,仿佛能看透人心。村民们都惊叹不已,纷纷跪拜,称其为“活的神”。 落成典礼那天,村长对阿岩说:“你创造了神,你就是神的化身。” 阿岩却摇了摇头,轻声说:“不,我不是创造者,我只是唤醒了它。” 众人不解。阿岩走到神像前,指着一处细微的裂痕说:“你们看,这块石头原本有一道裂纹,藏在深处。我本想避开它,可无论怎么雕,那裂痕总会出现在神像的眉心。最后我明白——它不是瑕疵,而是它本来的样子。” 他顿了顿,望向群山:“这石头在山中沉睡了千年,经历了风雨雷电,才有了这道伤痕。我所做的,不是塑造完美,而是让伤痕也成为神圣的一部分。” 众人沉默。 阿岩又说:“人总想雕刻出完美的神,可真正的神,不是无瑕的偶像,而是包容伤痕、接纳残缺的存在。我们每个人心中都有一块石头,有裂痕,有沉重,有沉默。但正是这些,让我们真实,让我们值得被唤醒。” 说完,他放下刻刀,走进山林,再也没有回来。 —— **寓意**: 这个故事告诉我们,真正的美与力量,不在于完美无缺,而在于接纳自己的伤痕与不完美。每个人都有裂痕,但那不是缺陷,而是经历的印记,是灵魂的深度。我们不必成为别人眼中的“完美神像”,而是要勇敢地“唤醒”真实的自己——带着伤痕,依然庄严站立。'}]} """ ### ms-swift Install ms-swift shell pip install ms-swift Download and use: python from swift.llm import load_dataset dataset, val_dataset = load_dataset('swift/Chinese-Qwen3-235B-2507-Distill-data-110k-SFT') print(f'dataset: {dataset}') print(f'dataset[0]: {dataset[0]}') """ dataset: Dataset({ features: ['messages'], num_rows: 110000 }) dataset[0]: {'messages': [{'role': 'user', 'content': '能给我讲一个寓意深刻的故事吗?'}, {'role': 'assistant', 'content': '当然可以。下面是一个寓意深刻的小故事,名为《石匠与神像》: 很久以前,在一座深山里,有一位技艺精湛的石匠,名叫阿岩。他一生都在雕刻石头,作品精美绝伦,远近闻名。但他从不雕刻神像,别人问他为什么,他总是沉默不语。 一天,村里要修建一座庙宇,村长请他雕刻一尊守护神像。阿岩犹豫了很久,终于答应了。他选了一块巨大的青石,开始日复一日地凿刻。每一锤、每一凿,他都极为专注,仿佛在与石头对话。 三年过去了,神像终于完成。它面容庄严,目光深邃,仿佛能看透人心。村民们都惊叹不已,纷纷跪拜,称其为“活的神”。 落成典礼那天,村长对阿岩说:“你创造了神,你就是神的化身。” 阿岩却摇了摇头,轻声说:“不,我不是创造者,我只是唤醒了它。” 众人不解。阿岩走到神像前,指着一处细微的裂痕说:“你们看,这块石头原本有一道裂纹,藏在深处。我本想避开它,可无论怎么雕,那裂痕总会出现在神像的眉心。最后我明白——它不是瑕疵,而是它本来的样子。” 他顿了顿,望向群山:“这石头在山中沉睡了千年,经历了风雨雷电,才有了这道伤痕。我所做的,不是塑造完美,而是让伤痕也成为神圣的一部分。” 众人沉默。 阿岩又说:“人总想雕刻出完美的神,可真正的神,不是无瑕的偶像,而是包容伤痕、接纳残缺的存在。我们每个人心中都有一块石头,有裂痕,有沉重,有沉默。但正是这些,让我们真实,让我们值得被唤醒。” 说完,他放下刻刀,走进山林,再也没有回来。 —— **寓意**: 这个故事告诉我们,真正的美与力量,不在于完美无缺,而在于接纳自己的伤痕与不完美。每个人都有裂痕,但那不是缺陷,而是经历的印记,是灵魂的深度。我们不必成为别人眼中的“完美神像”,而是要勇敢地“唤醒”真实的自己——带着伤痕,依然庄严站立。'}]} """
提供机构:
maas
创建时间:
2025-07-22
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是基于Qwen3-235B-A22B-Instruct-2507模型蒸馏生成的110k SFT数据集,主要用于模型微调时的通用数据集混合,以避免知识遗忘。数据集提供了详细的使用方法和安装步骤,适用于中文文本生成任务。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务