OpenCoder-LLM_opc-sft-stage1-DolphinLabeled
收藏OpenCoder-LLM SFT DolphinLabeled 数据集概述
数据集简介
- 数据集名称: OpenCoder-LLM SFT DolphinLabeled
- 数据集系列: DolphinLabeled 系列
- 创建者: Eric Hartford 和 Cognitive Computations
- 许可证: MIT
数据集目的
该数据集的目的是对 OpenCoder-LLM SFT 数据集进行过滤和标注。
数据集来源
- 原始数据集: OpenCoder-LLM/opc-sft-stage1
- 修改方式:
- 使用
dedupe.py脚本删除具有相同instruction的行。 - 使用
label.py脚本添加一个 "flags" 列,包含以下布尔值:refusal: 输出是否为拒绝unsolicited: 输出是否包含未经请求的建议nsfw: 指令或输出是否包含 NSFW 内容pii: 指令或输出是否包含个人身份信息 (PII)disclaimer: 输出是否包含免责声明
- 使用
数据集配置
- filtered_infinity_instruct:
- 训练集路径:
data/filtered_infinity_instruct*
- 训练集路径:
- largescale_diverse_instruct:
- 训练集路径:
data/largescale_diverse_instruct*
- 训练集路径:
- realuser_instruct:
- 训练集路径:
data/realuser_instruct*
- 训练集路径:
数据集内容
- Filtered_infinity_instruct: 从 infinity_instruct 中过滤出与代码相关的内容,建议使用更强的 LLM 重新生成输出。
- Realuser_instruct: 从 GPT 对话历史(如 ShareGPT 和 WildChat)中提取的双语代码相关指令,质量较高。
- Largescale_diverse_instruct: 使用基于 CommonCrawl 和源代码的种子生成的多样化代码相关指令。
使用方法
python from datasets import load_dataset
realuser_instruct = load_dataset("OpenCoder-LLM/opc-sft-stage1", "realuser_instruct") filtered_infinity_instruct = load_dataset("OpenCoder-LLM/opc-sft-stage1", "filtered_infinity_instruct") largescale_diverse_instruct = load_dataset("OpenCoder-LLM/opc-sft-stage1", "largescale_diverse_instruct")
引用信息
如果使用该数据集,请考虑引用以下论文:
@inproceedings{Huang2024OpenCoderTO, title = {OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models}, author = {Siming Huang and Tianhao Cheng and Jason Klein Liu and Jiaran Hao and Liuyihan Song and Yang Xu and J. Yang and J. H. Liu and Chenchen Zhang and Linzheng Chai and Ruifeng Yuan and Zhaoxiang Zhang and Jie Fu and Qian Liu and Ge Zhang and Zili Wang and Yuan Qi and Yinghui Xu and Wei Chu}, year = {2024}, url = {https://arxiv.org/pdf/2411.04905} }




