OpenCoder-LLM__opc-sft-stage1_scored

Hugging Face2025-07-29 更新2025-07-30 收录

下载链接：

https://huggingface.co/datasets/OpenDataArena/OpenCoder-LLM__opc-sft-stage1_scored

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个经过评分的指令跟随数据集，包含了原始指令和模型的响应，以及针对指令和指令-响应对的详细评分信息。这些评分信息可以帮助进行数据分析和选择。

创建时间：

2025-07-26

原始信息汇总

数据集概述：Opc-sft-stage1_scored - with OpenDataArena Scores

数据集来源

原始数据集：OpenCoder-LLM/opc-sft-stage1
评分工具：OpenDataArena-Tool
数据归属：OpenDataArena项目

数据格式

格式：JSON Lines (JSONL)
每行结构：
- instruction：原始指令
- output：模型响应
- Q_scores：评估指令质量的字典
- QA_scores：评估指令-响应对质量的字典
注意：部分评分可能为null（不适用或未运行）

评分维度

问题级评分（`Q_scores`）

Deita_Complexity：指令复杂度（1-6分）
Thinking_Prob：数学问题的深度推理需求
Difficulty：代码/数学问题的难度（LLM-as-Judge）
Clarity、Coherence、Completeness、Complexity、Correctness、Meaningfulness：指令的清晰度、逻辑一致性、完整性、复杂性、准确性和实用性（LLM-as-Judge）

问答对评分（`QA_scores`）

Deita_Quality：指令-响应对整体质量（1-6分）
IFD：指令遵循难度
Reward_Model：响应对齐度（Skywork-Reward-Model评分）
Fail_Rate：模型失败概率（数学问题）
Relevance：响应与问题的相关性（LLM-as-Judge）
Clarity、Coherence、Completeness、Complexity、Correctness、Meaningfulness：响应的清晰度、逻辑一致性、完整性、深度、准确性和价值（LLM-as-Judge）
A_Length：响应长度（基于o200k_base编码器的token数）

数据加载方式

python from datasets import load_dataset dataset = load_dataset("OpenDataArena/OpenCoder-LLM__opc-sft-stage1_scored")

相关资源

评分工具：OpenDataArena-Tool
项目主页：OpenDataArena Platform
原始数据集：OpenCoder-LLM/opc-sft-stage1

搜集汇总

数据集介绍

构建方式

在代码生成与指令遵循研究领域，数据质量评估至关重要。本数据集基于OpenCoder-LLM/opc-sft-stage1原始数据，采用OpenDataArena-Tool自动化评估工具进行多维度评分构建而成。该工具集成了模型驱动与LLM-as-Judge双重评估范式，对每条指令及其对应响应进行精细化量化分析，最终形成包含指令质量评分与问答对质量评分的增强版本数据集。

特点

该数据集的核心特征在于其丰富的多层级评分体系。不仅包含针对指令本身复杂度的Deita_Complexity评分，还囊括了问答对整体质量的Deita_Quality评估。特别值得关注的是其双轨制评分结构：Q_scores专注评估指令的清晰度、连贯性与认知需求，QA_scores则从相关性、准确性和推理深度等维度综合评价响应质量。这种设计为研究者提供了前所未有的数据粒度分析能力。

使用方法

研究人员可通过HuggingFace datasets库直接加载该数据集进行深入分析。加载后的数据结构包含原始指令、模型输出及嵌套的评分字典。用户可基于多维评分指标进行数据筛选、质量分层或构建强化学习训练集。例如，通过Reward_Model分数筛选高质量样本，或利用IFD指标分析指令遵循难度分布，为代码生成模型的精细化训练提供数据支撑。

背景与挑战

背景概述

随着大语言模型在代码生成领域的深入应用，OpenCoder-LLM项目于2023年推出了opc-sft-stage1数据集，旨在通过监督微调提升模型对编程指令的理解与响应能力。该数据集由OpenDataArena团队基于自动化评估工具构建，其核心研究在于解决代码生成任务中指令遵循质量与响应可靠性的量化问题，为代码大模型的优化与基准测试提供了关键数据支撑，显著推动了智能编程辅助领域的发展。

当前挑战

该数据集致力于应对代码生成任务中模型响应与复杂指令对齐的挑战，包括多维度质量评估、推理深度量化以及错误率预测等难点。构建过程中的主要挑战在于设计自动化且可解释的评分体系，整合多种评估方法（如模型内置评分和LLM-as-Judge），并处理不同编程问题类型的适应性评分，同时确保大量数据样本的评分一致性与有效性。

常用场景

经典使用场景

在代码生成与指令遵循研究领域，该数据集通过多维评分机制为模型训练提供精细化数据筛选依据。研究者可依据Deita_Complexity评分选择不同认知难度的指令，或通过Reward_Model分数筛选高质量问答对，显著提升监督微调阶段的数据利用效率。其丰富的评分维度使该数据集成为构建高质量代码生成模型训练集的首选基准。

解决学术问题

该数据集有效解决了代码生成模型中指令遵循质量评估的标准化难题。通过融合模型基评分与LLM-as-Judge双重视角，为学术研究提供了可量化的指令复杂度、响应对齐度等核心指标。这种多维评估体系显著提升了代码生成模型训练数据的透明度，为研究社区建立了可复现的模型性能评估基准。

衍生相关工作

该数据集催生了多项基于评分优化的数据选择算法研究，如Deita框架的复杂度-质量联合筛选策略。其评分标准被广泛应用于代码大模型的课程学习研究，衍生出基于难度渐进的数据调度方法。相关工作还拓展到多模态指令遵循领域，为视觉-语言模型的评估体系提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集