中文基于Qwen3-235B-2507蒸馏数据集
收藏魔搭社区2026-06-06 更新2025-07-26 收录
下载链接:
https://modelscope.cn/datasets/swift/Chinese-Qwen3-235B-2507-Distill-data-110k-SFT
下载链接
链接失效反馈官方服务:
资源简介:
该数据集使用[Qwen/Qwen3-235B-A22B-Instruct-2507](https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507)蒸馏产生。
蒸馏命令使用[ms-swift](https://github.com/modelscope/ms-swift/blob/main/examples/infer/sglang/distill_qwen3_235b.sh) & [sglang](https://github.com/sgl-project/sglang)框架。使用[liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT](https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT)的问题进行蒸馏。
该数据集产生的目的是用于微调模型时进行通用数据集混合,避免知识遗忘。具体数据集结构请查看[https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT](https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT)。
Qwen3-235B-A22B-Thinking-2507蒸馏数据集请查看: [https://modelscope.cn/datasets/swift/Chinese-Qwen3-235B-Thinking-2507-Distill-data-110k-SFT](https://modelscope.cn/datasets/swift/Chinese-Qwen3-235B-Thinking-2507-Distill-data-110k-SFT)。
蒸馏命令:
```shell
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \
swift infer \
--model Qwen/Qwen3-235B-A22B-Instruct-2507 \
--infer_backend sglang \
--val_dataset liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT \
--sglang_context_length 12000 \
--sglang_tp_size 8 \
--write_batch_size 10000 \
--result_path distill_qwen3_235b.jsonl
```
## 使用方法
### modelscope
安装modelscope
```
pip install "modelscope[dataset]"
```
下载使用:
```python
from modelscope.msdatasets import MsDataset
dataset = MsDataset.load('swift/Chinese-Qwen3-235B-2507-Distill-data-110k-SFT')
print(f'dataset[0]: {dataset[0]}')
"""
dataset[0]: {'messages': [{'role': 'user', 'content': '能给我讲一个寓意深刻的故事吗?'}, {'role': 'assistant', 'content': '当然可以。下面是一个寓意深刻的小故事,名为《石匠与神像》:\n\n很久以前,在一座深山里,有一位技艺精湛的石匠,名叫阿岩。他一生都在雕刻石头,作品精美绝伦,远近闻名。但他从不雕刻神像,别人问他为什么,他总是沉默不语。\n\n一天,村里要修建一座庙宇,村长请他雕刻一尊守护神像。阿岩犹豫了很久,终于答应了。他选了一块巨大的青石,开始日复一日地凿刻。每一锤、每一凿,他都极为专注,仿佛在与石头对话。\n\n三年过去了,神像终于完成。它面容庄严,目光深邃,仿佛能看透人心。村民们都惊叹不已,纷纷跪拜,称其为“活的神”。\n\n落成典礼那天,村长对阿岩说:“你创造了神,你就是神的化身。”\n\n阿岩却摇了摇头,轻声说:“不,我不是创造者,我只是唤醒了它。”\n\n众人不解。阿岩走到神像前,指着一处细微的裂痕说:“你们看,这块石头原本有一道裂纹,藏在深处。我本想避开它,可无论怎么雕,那裂痕总会出现在神像的眉心。最后我明白——它不是瑕疵,而是它本来的样子。”\n\n他顿了顿,望向群山:“这石头在山中沉睡了千年,经历了风雨雷电,才有了这道伤痕。我所做的,不是塑造完美,而是让伤痕也成为神圣的一部分。”\n\n众人沉默。\n\n阿岩又说:“人总想雕刻出完美的神,可真正的神,不是无瑕的偶像,而是包容伤痕、接纳残缺的存在。我们每个人心中都有一块石头,有裂痕,有沉重,有沉默。但正是这些,让我们真实,让我们值得被唤醒。”\n\n说完,他放下刻刀,走进山林,再也没有回来。\n\n——\n\n**寓意**: \n这个故事告诉我们,真正的美与力量,不在于完美无缺,而在于接纳自己的伤痕与不完美。每个人都有裂痕,但那不是缺陷,而是经历的印记,是灵魂的深度。我们不必成为别人眼中的“完美神像”,而是要勇敢地“唤醒”真实的自己——带着伤痕,依然庄严站立。'}]}
"""
```
### ms-swift
安装ms-swift
```shell
pip install ms-swift
```
下载使用:
```python
from swift.llm import load_dataset
dataset, val_dataset = load_dataset('swift/Chinese-Qwen3-235B-2507-Distill-data-110k-SFT')
print(f'dataset: {dataset}')
print(f'dataset[0]: {dataset[0]}')
"""
dataset: Dataset({
features: ['messages'],
num_rows: 110000
})
dataset[0]: {'messages': [{'role': 'user', 'content': '能给我讲一个寓意深刻的故事吗?'}, {'role': 'assistant', 'content': '当然可以。下面是一个寓意深刻的小故事,名为《石匠与神像》:\n\n很久以前,在一座深山里,有一位技艺精湛的石匠,名叫阿岩。他一生都在雕刻石头,作品精美绝伦,远近闻名。但他从不雕刻神像,别人问他为什么,他总是沉默不语。\n\n一天,村里要修建一座庙宇,村长请他雕刻一尊守护神像。阿岩犹豫了很久,终于答应了。他选了一块巨大的青石,开始日复一日地凿刻。每一锤、每一凿,他都极为专注,仿佛在与石头对话。\n\n三年过去了,神像终于完成。它面容庄严,目光深邃,仿佛能看透人心。村民们都惊叹不已,纷纷跪拜,称其为“活的神”。\n\n落成典礼那天,村长对阿岩说:“你创造了神,你就是神的化身。”\n\n阿岩却摇了摇头,轻声说:“不,我不是创造者,我只是唤醒了它。”\n\n众人不解。阿岩走到神像前,指着一处细微的裂痕说:“你们看,这块石头原本有一道裂纹,藏在深处。我本想避开它,可无论怎么雕,那裂痕总会出现在神像的眉心。最后我明白——它不是瑕疵,而是它本来的样子。”\n\n他顿了顿,望向群山:“这石头在山中沉睡了千年,经历了风雨雷电,才有了这道伤痕。我所做的,不是塑造完美,而是让伤痕也成为神圣的一部分。”\n\n众人沉默。\n\n阿岩又说:“人总想雕刻出完美的神,可真正的神,不是无瑕的偶像,而是包容伤痕、接纳残缺的存在。我们每个人心中都有一块石头,有裂痕,有沉重,有沉默。但正是这些,让我们真实,让我们值得被唤醒。”\n\n说完,他放下刻刀,走进山林,再也没有回来。\n\n——\n\n**寓意**: \n这个故事告诉我们,真正的美与力量,不在于完美无缺,而在于接纳自己的伤痕与不完美。每个人都有裂痕,但那不是缺陷,而是经历的印记,是灵魂的深度。我们不必成为别人眼中的“完美神像”,而是要勇敢地“唤醒”真实的自己——带着伤痕,依然庄严站立。'}]}
"""
```
This dataset was distilled using the model [Qwen/Qwen3-235B-A22B-Instruct-2507](https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507).
The distillation command leverages the frameworks [ms-swift](https://github.com/modelscope/ms-swift/blob/main/examples/infer/sglang/distill_qwen3_235b.sh) and [sglang](https://github.com/sgl-project/sglang), and was conducted using the prompts from the dataset [liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT](https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT).
The purpose of this dataset is to act as a general-purpose mixture for model fine-tuning, mitigating knowledge forgetting. For detailed dataset structure, please refer to [https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT](https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT).
For the distillation dataset of Qwen3-235B-A22B-Thinking-2507, please visit: [https://modelscope.cn/datasets/swift/Chinese-Qwen3-235B-Thinking-2507-Distill-data-110k-SFT](https://modelscope.cn/datasets/swift/Chinese-Qwen3-235B-Thinking-2507-Distill-data-110k-SFT).
### Distillation Command
shell
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
swift infer
--model Qwen/Qwen3-235B-A22B-Instruct-2507
--infer_backend sglang
--val_dataset liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT
--sglang_context_length 12000
--sglang_tp_size 8
--write_batch_size 10000
--result_path distill_qwen3_235b.jsonl
## Usage
### ModelScope
Install modelscope
pip install "modelscope[dataset]"
Download and use:
python
from modelscope.msdatasets import MsDataset
dataset = MsDataset.load('swift/Chinese-Qwen3-235B-2507-Distill-data-110k-SFT')
print(f'dataset[0]: {dataset[0]}')
"""
dataset[0]: {'messages': [{'role': 'user', 'content': '能给我讲一个寓意深刻的故事吗?'}, {'role': 'assistant', 'content': '当然可以。下面是一个寓意深刻的小故事,名为《石匠与神像》:
很久以前,在一座深山里,有一位技艺精湛的石匠,名叫阿岩。他一生都在雕刻石头,作品精美绝伦,远近闻名。但他从不雕刻神像,别人问他为什么,他总是沉默不语。
一天,村里要修建一座庙宇,村长请他雕刻一尊守护神像。阿岩犹豫了很久,终于答应了。他选了一块巨大的青石,开始日复一日地凿刻。每一锤、每一凿,他都极为专注,仿佛在与石头对话。
三年过去了,神像终于完成。它面容庄严,目光深邃,仿佛能看透人心。村民们都惊叹不已,纷纷跪拜,称其为“活的神”。
落成典礼那天,村长对阿岩说:“你创造了神,你就是神的化身。”
阿岩却摇了摇头,轻声说:“不,我不是创造者,我只是唤醒了它。”
众人不解。阿岩走到神像前,指着一处细微的裂痕说:“你们看,这块石头原本有一道裂纹,藏在深处。我本想避开它,可无论怎么雕,那裂痕总会出现在神像的眉心。最后我明白——它不是瑕疵,而是它本来的样子。”
他顿了顿,望向群山:“这石头在山中沉睡了千年,经历了风雨雷电,才有了这道伤痕。我所做的,不是塑造完美,而是让伤痕也成为神圣的一部分。”
众人沉默。
阿岩又说:“人总想雕刻出完美的神,可真正的神,不是无瑕的偶像,而是包容伤痕、接纳残缺的存在。我们每个人心中都有一块石头,有裂痕,有沉重,有沉默。但正是这些,让我们真实,让我们值得被唤醒。”
说完,他放下刻刀,走进山林,再也没有回来。
——
**寓意**:
这个故事告诉我们,真正的美与力量,不在于完美无缺,而在于接纳自己的伤痕与不完美。每个人都有裂痕,但那不是缺陷,而是经历的印记,是灵魂的深度。我们不必成为别人眼中的“完美神像”,而是要勇敢地“唤醒”真实的自己——带着伤痕,依然庄严站立。'}]}
"""
### ms-swift
Install ms-swift
shell
pip install ms-swift
Download and use:
python
from swift.llm import load_dataset
dataset, val_dataset = load_dataset('swift/Chinese-Qwen3-235B-2507-Distill-data-110k-SFT')
print(f'dataset: {dataset}')
print(f'dataset[0]: {dataset[0]}')
"""
dataset: Dataset({
features: ['messages'],
num_rows: 110000
})
dataset[0]: {'messages': [{'role': 'user', 'content': '能给我讲一个寓意深刻的故事吗?'}, {'role': 'assistant', 'content': '当然可以。下面是一个寓意深刻的小故事,名为《石匠与神像》:
很久以前,在一座深山里,有一位技艺精湛的石匠,名叫阿岩。他一生都在雕刻石头,作品精美绝伦,远近闻名。但他从不雕刻神像,别人问他为什么,他总是沉默不语。
一天,村里要修建一座庙宇,村长请他雕刻一尊守护神像。阿岩犹豫了很久,终于答应了。他选了一块巨大的青石,开始日复一日地凿刻。每一锤、每一凿,他都极为专注,仿佛在与石头对话。
三年过去了,神像终于完成。它面容庄严,目光深邃,仿佛能看透人心。村民们都惊叹不已,纷纷跪拜,称其为“活的神”。
落成典礼那天,村长对阿岩说:“你创造了神,你就是神的化身。”
阿岩却摇了摇头,轻声说:“不,我不是创造者,我只是唤醒了它。”
众人不解。阿岩走到神像前,指着一处细微的裂痕说:“你们看,这块石头原本有一道裂纹,藏在深处。我本想避开它,可无论怎么雕,那裂痕总会出现在神像的眉心。最后我明白——它不是瑕疵,而是它本来的样子。”
他顿了顿,望向群山:“这石头在山中沉睡了千年,经历了风雨雷电,才有了这道伤痕。我所做的,不是塑造完美,而是让伤痕也成为神圣的一部分。”
众人沉默。
阿岩又说:“人总想雕刻出完美的神,可真正的神,不是无瑕的偶像,而是包容伤痕、接纳残缺的存在。我们每个人心中都有一块石头,有裂痕,有沉重,有沉默。但正是这些,让我们真实,让我们值得被唤醒。”
说完,他放下刻刀,走进山林,再也没有回来。
——
**寓意**:
这个故事告诉我们,真正的美与力量,不在于完美无缺,而在于接纳自己的伤痕与不完美。每个人都有裂痕,但那不是缺陷,而是经历的印记,是灵魂的深度。我们不必成为别人眼中的“完美神像”,而是要勇敢地“唤醒”真实的自己——带着伤痕,依然庄严站立。'}]}
"""
提供机构:
maas
创建时间:
2025-07-22
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是基于Qwen3-235B-A22B-Instruct-2507模型蒸馏生成的110k SFT数据集,主要用于模型微调时的通用数据集混合,以避免知识遗忘。数据集提供了详细的使用方法和安装步骤,适用于中文文本生成任务。
以上内容由遇见数据集搜集并总结生成



