five

OpenCoder-LLM_opc-sft-stage1-DolphinLabeled

收藏
Hugging Face2025-01-05 更新2025-01-06 收录
下载链接:
https://huggingface.co/datasets/cognitivecomputations/OpenCoder-LLM_opc-sft-stage1-DolphinLabeled
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于过滤OpenCoder-LLM SFT数据集,并添加了多个标签,包括拒绝、未经请求的建议、NSFW内容、PII信息和免责声明等。数据集由三个部分组成:Filtered_infinity_instruct、Realuser_instruct和Largescale_diverse_instruct。Filtered_infinity_instruct是从infinity_instruct中过滤出的代码相关内容,Realuser_instruct是从GPT对话历史中提取的双语代码相关指令,Largescale_diverse_instruct则是基于CommonCrawl和源代码生成的多样化代码相关指令。
提供机构:
Cognitive Computations
创建时间:
2025-01-04
原始信息汇总

OpenCoder-LLM SFT DolphinLabeled 数据集概述

数据集简介

  • 数据集名称: OpenCoder-LLM SFT DolphinLabeled
  • 数据集系列: DolphinLabeled 系列
  • 创建者: Eric Hartford 和 Cognitive Computations
  • 许可证: MIT

数据集目的

该数据集的目的是对 OpenCoder-LLM SFT 数据集进行过滤和标注。

数据集来源

  • 原始数据集: OpenCoder-LLM/opc-sft-stage1
  • 修改方式:
    1. 使用 dedupe.py 脚本删除具有相同 instruction 的行。
    2. 使用 label.py 脚本添加一个 "flags" 列,包含以下布尔值:
      • refusal: 输出是否为拒绝
      • unsolicited: 输出是否包含未经请求的建议
      • nsfw: 指令或输出是否包含 NSFW 内容
      • pii: 指令或输出是否包含个人身份信息 (PII)
      • disclaimer: 输出是否包含免责声明

数据集配置

  • filtered_infinity_instruct:
    • 训练集路径: data/filtered_infinity_instruct*
  • largescale_diverse_instruct:
    • 训练集路径: data/largescale_diverse_instruct*
  • realuser_instruct:
    • 训练集路径: data/realuser_instruct*

数据集内容

  • Filtered_infinity_instruct: 从 infinity_instruct 中过滤出与代码相关的内容,建议使用更强的 LLM 重新生成输出。
  • Realuser_instruct: 从 GPT 对话历史(如 ShareGPTWildChat)中提取的双语代码相关指令,质量较高。
  • Largescale_diverse_instruct: 使用基于 CommonCrawl 和源代码的种子生成的多样化代码相关指令。

使用方法

python from datasets import load_dataset

realuser_instruct = load_dataset("OpenCoder-LLM/opc-sft-stage1", "realuser_instruct") filtered_infinity_instruct = load_dataset("OpenCoder-LLM/opc-sft-stage1", "filtered_infinity_instruct") largescale_diverse_instruct = load_dataset("OpenCoder-LLM/opc-sft-stage1", "largescale_diverse_instruct")

引用信息

如果使用该数据集,请考虑引用以下论文:

@inproceedings{Huang2024OpenCoderTO, title = {OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models}, author = {Siming Huang and Tianhao Cheng and Jason Klein Liu and Jiaran Hao and Liuyihan Song and Yang Xu and J. Yang and J. H. Liu and Chenchen Zhang and Linzheng Chai and Ruifeng Yuan and Zhaoxiang Zhang and Jie Fu and Qian Liu and Ge Zhang and Zili Wang and Yuan Qi and Yinghui Xu and Wei Chu}, year = {2024}, url = {https://arxiv.org/pdf/2411.04905} }

搜集汇总
数据集介绍
main_image_url
构建方式
OpenCoder-LLM_opc-sft-stage1-DolphinLabeled数据集的构建基于OpenCoder-LLM/opc-sft-stage1数据集,通过两个关键脚本进行优化。首先,使用dedupe.py脚本去除重复的指令行,确保数据的唯一性。其次,通过label.py脚本添加了一个包含多个布尔值的“flags”列,用于标记输出中的拒绝、未经请求的建议、NSFW内容、个人身份信息(PII)以及免责声明等特征。这些标签由Deepseek-V3生成,确保了数据的高质量和实用性。
特点
该数据集的特点在于其多样性和高质量。它由三个主要部分组成:Filtered_infinity_instruct、Realuser_instruct和Largescale_diverse_instruct。Filtered_infinity_instruct从infinity_instruct中筛选出与代码相关的内容,并通过更强的LLM重新生成低质量响应。Realuser_instruct提取自真实用户的GPT对话历史,具有高质量的双语代码指令。Largescale_diverse_instruct则通过基于CommonCrawl和源代码的种子生成,提供了多样化的代码指令。这些特点使得该数据集在提升代码大语言模型的实用性能方面具有显著优势。
使用方法
使用该数据集时,可以通过Hugging Face的datasets库轻松加载。用户可以根据需要选择加载不同的配置,如realuser_instruct、filtered_infinity_instruct和largescale_diverse_instruct。加载后,数据集可以直接用于训练和评估代码大语言模型,特别是在需要高质量和多样化指令的场景中。通过这种方式,研究人员和开发者能够充分利用该数据集来提升模型的性能和实用性。
背景与挑战
背景概述
OpenCoder-LLM_opc-sft-stage1-DolphinLabeled数据集是由Eric Hartford和Cognitive Computations团队于2024年推出的,旨在为OpenCoder-LLM模型的监督微调(SFT)提供高质量的数据支持。该数据集是DolphinLabeled系列的一部分,主要基于OpenCoder-LLM/opc-sft-stage1数据集进行改进,通过去重和标签添加等处理,提升了数据的质量和实用性。数据集的核心研究问题在于如何通过过滤和标注机制,提升代码生成模型的性能,特别是在处理代码相关指令时的准确性和多样性。该数据集在代码生成领域具有重要影响力,为开发更强大的代码大语言模型提供了关键的数据基础。
当前挑战
OpenCoder-LLM_opc-sft-stage1-DolphinLabeled数据集在构建过程中面临多重挑战。首先,原始数据集中存在大量低质量响应,例如过于简短的回复或不一致的代码格式,需要通过更强的语言模型进行重新生成。其次,数据标注的准确性依赖于Deepseek-V3等工具,尽管其拒绝回答的比例较低,但仍可能引入潜在的偏差。此外,如何从真实用户对话中提取高质量的代码相关指令,并确保数据的多样性和实用性,也是构建过程中的一大难题。这些挑战不仅影响了数据集的构建效率,也对后续模型的训练和性能提出了更高的要求。
常用场景
经典使用场景
OpenCoder-LLM_opc-sft-stage1-DolphinLabeled数据集在代码生成和自然语言处理领域具有广泛的应用。该数据集通过过滤和标注机制,提供了高质量的代码相关指令数据,特别适用于训练和微调代码生成模型。其经典使用场景包括代码自动补全、代码翻译以及代码解释生成等任务,能够显著提升模型在实际应用中的表现。
实际应用
在实际应用中,OpenCoder-LLM_opc-sft-stage1-DolphinLabeled数据集被广泛用于开发智能编程助手、自动化代码审查工具以及代码生成平台。例如,开发者可以利用该数据集训练模型,生成高质量的代码片段,或根据用户指令自动生成代码解释。这些应用不仅提高了开发效率,还降低了代码错误率,推动了软件开发的自动化和智能化进程。
衍生相关工作
基于该数据集,研究者们开展了多项经典工作,包括OpenCoder模型的进一步优化和扩展。例如,OpenCoder-LLM/opc-sft-stage2和OpenCoder-LLM/opc-annealing-corpus等数据集都是在该数据集的基础上衍生而来。这些工作不仅丰富了代码生成领域的研究内容,还为后续的模型训练和评估提供了更多样化的数据支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作