Light-IF-32B蒸馏CoT数据集
收藏魔搭社区2025-11-21 更新2025-09-20 收录
下载链接:
https://modelscope.cn/datasets/AiLieLemon/Light-IF-32B-CoT
下载链接
链接失效反馈官方服务:
资源简介:
# 基于 Light-IF-32B 模型的蒸馏数据集
该数据集使用[qihoo360/Light-IF-32B](https://huggingface.co/qihoo360/Light-IF-32B)蒸馏产生。
蒸馏命令使用sglang框架。使用[liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT](https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k-SFT)的问题进行蒸馏。
## 转义
```python
import json
def decode_jsonl_from_unicode(input_file, output_file):
with open(input_file, "r", encoding="utf-8") as fin, \
open(output_file, "w", encoding="utf-8") as fout:
for line in fin:
line = line.strip()
if not line:
continue
data = json.loads(line)
decoded_line = json.dumps(data, ensure_ascii=False)
fout.write(decoded_line + "\n")
if __name__ == "__main__":
input_path = "encoded.jsonl" # 转义后的文件 Escaped file
output_path = "decoded.jsonl" # 恢复后的文件 Restored file
decode_jsonl_from_unicode(input_path, output_path)
print(f"Restoration has been completed, results are saved in {output_path}")
```
## 局限性
由于数据是由Light-IF-32B蒸馏生成的,未经严格验证,在事实性和其他方面还存在一些不足。因此,在使用此数据集时,请务必注意甄别。
本数据集不代表任何一方的立场、利益或想法,无关任何团体的任何类型的主张。因使用本数据集带来的任何损害、纠纷,本项目的开发者不承担任何责任。
# 基于 Light-IF-32B 模型的蒸馏数据集
本数据集基于 [qihoo360/Light-IF-32B](https://huggingface.co/qihoo360/Light-IF-32B) 蒸馏生成。
蒸馏流程采用 sglang 框架实现,所用的问题样本源自数据集 [liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT](https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k-SFT)。
## 转义处理
python
import json
def decode_jsonl_from_unicode(input_file, output_file):
with open(input_file, "r", encoding="utf-8") as fin, \
open(output_file, "w", encoding="utf-8") as fout:
for line in fin:
line = line.strip()
if not line:
continue
data = json.loads(line)
decoded_line = json.dumps(data, ensure_ascii=False)
fout.write(decoded_line + "
")
if __name__ == "__main__":
input_path = "encoded.jsonl" # 转义后的文件
output_path = "decoded.jsonl" # 恢复后的文件
decode_jsonl_from_unicode(input_path, output_path)
print(f"Restoration has been completed, results are saved in {output_path}")
## 局限性说明
由于本数据集由 Light-IF-32B 模型蒸馏生成,未经过严格校验,在事实准确性及其他维度均存在一定不足。因此,使用本数据集时,请务必仔细甄别内容。
本数据集不代表任何主体的立场、利益或观点,亦不关联任何团体的各类主张。因使用本数据集引发的任何损害、纠纷,本项目开发团队不承担任何责任。
提供机构:
maas
创建时间:
2025-09-14
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是基于Light-IF-32B模型通过sglang框架蒸馏生成的,蒸馏问题源自Chinese-DeepSeek-R1-Distill-data-110k-SFT。由于未经过严格验证,数据集在事实准确性等方面可能存在不足,使用时需谨慎评估。
以上内容由遇见数据集搜集并总结生成



