OpenCoder-LLM_opc-sft-stage2-DolphinLabeled
收藏OpenCoder-LLM SFT DolphinLabeled 数据集概述
数据集基本信息
- 数据集名称: OpenCoder-LLM SFT DolphinLabeled
- 数据集系列: DolphinLabeled
- 许可证: MIT
- 数据集用途: 用于过滤 OpenCoder-LLM SFT 数据集
数据集来源
- 原始数据集: OpenCoder-LLM/opc-sft-stage2
- 修改内容:
- 使用
dedupe.py脚本删除具有相同instruction的行。 - 使用
label.py脚本添加了一个包含以下布尔值的 "flags" 列:refusal: 输出是否为拒绝unsolicited: 输出是否包含未经请求的建议nsfw: 指令或输出是否包含 NSFW 内容pii: 指令或输出是否包含 PII(个人身份信息)disclaimer: 输出是否包含免责声明
- 使用
数据集配置
- educational_instruct:
- 路径:
data/educational_instruct* - 描述: 使用 algorithmic corpus 作为种子生成 (instruction, code, test case) 三元组,并通过 Python 编译器验证。
- 路径:
- evol_instruct:
- 路径:
data/evol_instruct* - 描述: 直接使用开源版本 MagicCoder-Evol-Instruct-110k。
- 路径:
- mceval_instruct:
- 路径:
data/mceval_instruct* - 描述: 直接使用开源版本 McEval-Instruct。
- 路径:
- package_instruct:
- 路径:
data/package_instruct* - 描述: 从 pydoc 中提取常见接口文档作为种子,生成与 Python 包相关的问题。
- 路径:
数据集使用示例
python from datasets import load_dataset
educational_instruct = load_dataset("OpenCoder-LLM/opc-sft-stage2", "educational_instruct") evol_instruct = load_dataset("OpenCoder-LLM/opc-sft-stage2", "evol_instruct") mceval_instruct = load_dataset("OpenCoder-LLM/opc-sft-stage2", "mceval_instruct") package_instruct = load_dataset("OpenCoder-LLM/opc-sft-stage2", "package_instruct")
引用信息
如果使用该数据集,请考虑引用以下论文:
@inproceedings{Huang2024OpenCoderTO, title = {OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models}, author = {Siming Huang and Tianhao Cheng and Jason Klein Liu and Jiaran Hao and Liuyihan Song and Yang Xu and J. Yang and J. H. Liu and Chenchen Zhang and Linzheng Chai and Ruifeng Yuan and Zhaoxiang Zhang and Jie Fu and Qian Liu and Ge Zhang and Zili Wang and Yuan Qi and Yinghui Xu and Wei Chu}, year = {2024}, url = {https://arxiv.org/pdf/2411.04905} }




