five

Light-IF-32B蒸馏CoT数据集

收藏
魔搭社区2025-11-21 更新2025-09-20 收录
下载链接:
https://modelscope.cn/datasets/AiLieLemon/Light-IF-32B-CoT
下载链接
链接失效反馈
官方服务:
资源简介:
# 基于 Light-IF-32B 模型的蒸馏数据集 该数据集使用[qihoo360/Light-IF-32B](https://huggingface.co/qihoo360/Light-IF-32B)蒸馏产生。 蒸馏命令使用sglang框架。使用[liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT](https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k-SFT)的问题进行蒸馏。 ## 转义 ```python import json def decode_jsonl_from_unicode(input_file, output_file): with open(input_file, "r", encoding="utf-8") as fin, \ open(output_file, "w", encoding="utf-8") as fout: for line in fin: line = line.strip() if not line: continue data = json.loads(line) decoded_line = json.dumps(data, ensure_ascii=False) fout.write(decoded_line + "\n") if __name__ == "__main__": input_path = "encoded.jsonl" # 转义后的文件 Escaped file output_path = "decoded.jsonl" # 恢复后的文件 Restored file decode_jsonl_from_unicode(input_path, output_path) print(f"Restoration has been completed, results are saved in {output_path}") ``` ## 局限性 由于数据是由Light-IF-32B蒸馏生成的,未经严格验证,在事实性和其他方面还存在一些不足。因此,在使用此数据集时,请务必注意甄别。 本数据集不代表任何一方的立场、利益或想法,无关任何团体的任何类型的主张。因使用本数据集带来的任何损害、纠纷,本项目的开发者不承担任何责任。

# 基于 Light-IF-32B 模型的蒸馏数据集 本数据集基于 [qihoo360/Light-IF-32B](https://huggingface.co/qihoo360/Light-IF-32B) 蒸馏生成。 蒸馏流程采用 sglang 框架实现,所用的问题样本源自数据集 [liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT](https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k-SFT)。 ## 转义处理 python import json def decode_jsonl_from_unicode(input_file, output_file): with open(input_file, "r", encoding="utf-8") as fin, \ open(output_file, "w", encoding="utf-8") as fout: for line in fin: line = line.strip() if not line: continue data = json.loads(line) decoded_line = json.dumps(data, ensure_ascii=False) fout.write(decoded_line + " ") if __name__ == "__main__": input_path = "encoded.jsonl" # 转义后的文件 output_path = "decoded.jsonl" # 恢复后的文件 decode_jsonl_from_unicode(input_path, output_path) print(f"Restoration has been completed, results are saved in {output_path}") ## 局限性说明 由于本数据集由 Light-IF-32B 模型蒸馏生成,未经过严格校验,在事实准确性及其他维度均存在一定不足。因此,使用本数据集时,请务必仔细甄别内容。 本数据集不代表任何主体的立场、利益或观点,亦不关联任何团体的各类主张。因使用本数据集引发的任何损害、纠纷,本项目开发团队不承担任何责任。
提供机构:
maas
创建时间:
2025-09-14
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是基于Light-IF-32B模型通过sglang框架蒸馏生成的,蒸馏问题源自Chinese-DeepSeek-R1-Distill-data-110k-SFT。由于未经过严格验证,数据集在事实准确性等方面可能存在不足,使用时需谨慎评估。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作