five

OpenCoder-LLM_opc-sft-stage2-DolphinLabeled

收藏
Hugging Face2025-01-05 更新2025-01-06 收录
下载链接:
https://huggingface.co/datasets/cognitivecomputations/OpenCoder-LLM_opc-sft-stage2-DolphinLabeled
下载链接
链接失效反馈
官方服务:
资源简介:
OpenCoder-LLM SFT DolphinLabeled数据集是OpenCoder-LLM SFT数据集的一个过滤版本,主要用于代码生成和评估任务。数据集包含四个部分:educational_instruct、evol_instruct、mceval_instruct和package_instruct。educational_instruct部分使用算法语料库生成(指令、代码、测试用例)三元组,并通过Python编译器验证;evol_instruct部分直接使用了开源的MagicCoder-Evol-Instruct-110k数据集;mceval_instruct部分直接使用了开源的McEval-Instruct数据集;package_instruct部分则从pydoc中提取了常见的接口文档,并生成了与Python包相关的问题。数据集通过dedupe.py脚本去除了重复的指令行,并通过label.py脚本添加了包含拒绝、未经请求的建议、NSFW内容、PII信息和免责声明等标签的“flags”列。
提供机构:
Cognitive Computations
创建时间:
2025-01-04
原始信息汇总

OpenCoder-LLM SFT DolphinLabeled 数据集概述

数据集基本信息

  • 数据集名称: OpenCoder-LLM SFT DolphinLabeled
  • 数据集系列: DolphinLabeled
  • 许可证: MIT
  • 数据集用途: 用于过滤 OpenCoder-LLM SFT 数据集

数据集来源

  • 原始数据集: OpenCoder-LLM/opc-sft-stage2
  • 修改内容:
    • 使用 dedupe.py 脚本删除具有相同 instruction 的行。
    • 使用 label.py 脚本添加了一个包含以下布尔值的 "flags" 列:
      • refusal: 输出是否为拒绝
      • unsolicited: 输出是否包含未经请求的建议
      • nsfw: 指令或输出是否包含 NSFW 内容
      • pii: 指令或输出是否包含 PII(个人身份信息)
      • disclaimer: 输出是否包含免责声明

数据集配置

  • educational_instruct:
    • 路径: data/educational_instruct*
    • 描述: 使用 algorithmic corpus 作为种子生成 (instruction, code, test case) 三元组,并通过 Python 编译器验证。
  • evol_instruct:
  • mceval_instruct:
    • 路径: data/mceval_instruct*
    • 描述: 直接使用开源版本 McEval-Instruct
  • package_instruct:
    • 路径: data/package_instruct*
    • 描述: 从 pydoc 中提取常见接口文档作为种子,生成与 Python 包相关的问题。

数据集使用示例

python from datasets import load_dataset

educational_instruct = load_dataset("OpenCoder-LLM/opc-sft-stage2", "educational_instruct") evol_instruct = load_dataset("OpenCoder-LLM/opc-sft-stage2", "evol_instruct") mceval_instruct = load_dataset("OpenCoder-LLM/opc-sft-stage2", "mceval_instruct") package_instruct = load_dataset("OpenCoder-LLM/opc-sft-stage2", "package_instruct")

引用信息

如果使用该数据集,请考虑引用以下论文:

@inproceedings{Huang2024OpenCoderTO, title = {OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models}, author = {Siming Huang and Tianhao Cheng and Jason Klein Liu and Jiaran Hao and Liuyihan Song and Yang Xu and J. Yang and J. H. Liu and Chenchen Zhang and Linzheng Chai and Ruifeng Yuan and Zhaoxiang Zhang and Jie Fu and Qian Liu and Ge Zhang and Zili Wang and Yuan Qi and Yinghui Xu and Wei Chu}, year = {2024}, url = {https://arxiv.org/pdf/2411.04905} }

搜集汇总
数据集介绍
main_image_url
构建方式
OpenCoder-LLM_opc-sft-stage2-DolphinLabeled数据集的构建基于OpenCoder-LLM/opc-sft-stage2数据集,通过两个关键脚本进行优化。首先,使用dedupe.py脚本去除重复的指令行,确保数据的唯一性。其次,通过label.py脚本添加了一个包含多个布尔值的“flags”列,用于标记输出是否包含拒绝、未经请求的建议、NSFW内容、个人身份信息(PII)或免责声明。这些标签由Deepseek-V3生成,系统对不到1%的行进行了审查并删除。
特点
该数据集的特点在于其多样化的指令来源和严格的过滤机制。数据集包含四个主要部分:educational_instruct、evol_instruct、mceval_instruct和package_instruct。其中,educational_instruct通过算法生成并经过Python编译器验证的(指令、代码、测试用例)三元组,提供了代码强化学习的信号。evol_instruct和mceval_instruct分别来源于开源数据集MagicCoder-Evol-Instruct-110k和McEval-Instruct。package_instruct则基于pydoc提取的常见接口文档生成Python包相关问题。
使用方法
使用该数据集时,可以通过Hugging Face的datasets库加载不同配置的数据。例如,使用load_dataset函数分别加载educational_instruct、evol_instruct、mceval_instruct和package_instruct配置。加载后,用户可以根据需要进一步处理和分析这些数据,以支持代码生成、测试用例验证或Python包相关问题的研究。
背景与挑战
背景概述
OpenCoder-LLM_opc-sft-stage2-DolphinLabeled数据集是由Eric Hartford与Cognitive Computations团队共同开发,旨在为OpenCoder-LLM模型的第二阶段监督微调(SFT)提供高质量的数据支持。该数据集基于OpenCoder-LLM/opc-sft-stage2数据集,通过去重和标签化处理,进一步优化了数据的质量。数据集包含四个主要部分:educational_instruct、evol_instruct、mceval_instruct和package_instruct,分别涵盖了教育指令、进化指令、多模态评估指令以及Python包相关指令。该数据集的构建不仅为代码生成与优化提供了丰富的训练素材,还通过引入测试用例等信号,显著提升了代码强化学习的效果。其研究成果已在2024年发表的论文中详细阐述,对代码大语言模型的研究具有重要的推动作用。
当前挑战
OpenCoder-LLM_opc-sft-stage2-DolphinLabeled数据集在构建与应用过程中面临多重挑战。首先,数据质量的提升依赖于复杂的去重与标签化处理,尤其是对指令重复、拒绝输出、不请自来的建议、NSFW内容以及个人身份信息(PII)的识别与过滤,这对自动化工具的准确性和效率提出了较高要求。其次,数据集的多样性依赖于多个开源数据源的整合,如何确保不同来源数据的一致性与兼容性成为一大难题。此外,测试用例的生成与验证需要依赖Python编译器的支持,这对数据生成的自动化流程提出了技术挑战。最后,数据集的广泛应用还需解决如何高效加载与处理大规模数据的问题,这对计算资源与算法优化提出了更高的要求。
常用场景
经典使用场景
OpenCoder-LLM_opc-sft-stage2-DolphinLabeled数据集在代码生成和优化领域具有广泛的应用。该数据集通过提供包含指令、代码和测试用例的三元组,为代码生成模型提供了丰富的训练数据。特别是在教育场景中,该数据集能够帮助模型生成符合教学需求的代码示例,并通过测试用例验证代码的正确性,从而提升模型在实际应用中的表现。
解决学术问题
该数据集解决了代码生成模型在训练过程中面临的数据多样性和质量不足的问题。通过引入多种类型的指令数据,如教育指令、演化指令和包指令,数据集为模型提供了多样化的训练样本,增强了模型的泛化能力。此外,数据集中的测试用例为代码生成提供了明确的验证标准,帮助模型生成更加准确和可靠的代码。
衍生相关工作
基于OpenCoder-LLM_opc-sft-stage2-DolphinLabeled数据集,研究者们开发了多种代码生成和优化模型。例如,MagicCoder-Evol-Instruct-110k和McEval-Instruct等开源项目均利用了该数据集中的指令数据,进一步推动了代码生成领域的研究进展。这些衍生工作不仅提升了模型的性能,还为代码生成技术的实际应用提供了更多可能性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作