OpenCoder-LLM__opc-sft-stage2_scored

Hugging Face2025-07-29 更新2025-07-30 收录

下载链接：

https://huggingface.co/datasets/OpenDataArena/OpenCoder-LLM__opc-sft-stage2_scored

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个经过评分的OpenCoder-LLM/opc-sft-stage2数据集版本，包含对指令和指令-响应对的多维度评分，用于评估质量与复杂性。

创建时间：

2025-07-26

原始信息汇总

数据集概述：Opc-sft-stage2_scored - with OpenDataArena Scores

数据集来源

原始数据集：OpenCoder-LLM/opc-sft-stage2
评分工具：OpenDataArena-Tool
数据归属：OpenDataArena项目

数据格式

格式：JSON Lines (JSONL)
每行结构：
- instruction：原始指令
- output：模型响应
- Q_scores：评估指令质量的字典
- QA_scores：评估指令-响应对质量的字典
注意：部分评分可能为null（不适用或未运行）

评分维度

问题级评分（`Q_scores`）

Deita_Complexity：指令复杂度（1-6分）
Thinking_Prob：数学问题深度推理需求
Difficulty：代码/数学问题难度（LLM-as-Judge）
Clarity、Coherence、Completeness、Complexity、Correctness、Meaningfulness：指令的清晰度、逻辑性、完整性、复杂性、准确性和实用性（LLM-as-Judge）

问答对评分（`QA_scores`）

Deita_Quality：指令-响应对整体质量（1-6分）
IFD：指令跟随难度
Reward_Model：响应对齐度（Skywork-Reward-Model）
Fail_Rate：数学问题失败概率
Relevance：答案与问题的相关性（LLM-as-Judge）
Clarity、Coherence、Completeness、Complexity、Correctness、Meaningfulness：响应的清晰度、逻辑一致性、完整性、推理深度、准确性和价值（LLM-as-Judge）
A_Length：响应长度（基于o200k_base编码器的词元数）

数据访问

python from datasets import load_dataset dataset = load_dataset("OpenDataArena/OpenCoder-LLM__opc-sft-stage2_scored")

相关资源

评分工具：OpenDataArena-Tool
项目主页：OpenDataArena Platform

搜集汇总

数据集介绍

构建方式

在代码生成与指令遵循研究领域，数据质量评估至关重要。本数据集基于OpenCoder-LLM/opc-sft-stage2原始数据，采用OpenDataArena-Tool自动化评估工具进行系统化评分。该工具融合模型驱动与LLM-as-Judge双重评估范式，从指令复杂度、响应质量、推理难度等维度构建多维评分体系，最终形成包含原始指令-响应对及丰富评分标注的增强版本数据集。

特点

该数据集的核心特征体现在其精细化的多维评分体系。除保留原始指令和模型输出外，创新性地引入Q_scores和QA_scores双重评分结构：前者从清晰度、连贯性、认知需求等维度评估指令质量；后者从相关性、完整性、推理深度等角度综合评价响应质量。特别集成了Deita复杂度评分、奖励模型分数及失败率预测等专业指标，为研究者提供前所未有的细粒度分析能力。

使用方法

研究者可通过Hugging Face datasets库快速加载数据集，利用标准化接口访问嵌套式评分数据。该数据集支持多种应用场景：可通过筛选高评分样本构建优质训练子集，利用多维指标分析模型能力边界，或基于指令难度分数开展课程学习实验。其JSONL格式确保与主流机器学习框架无缝对接，评分字段的详细文档为定制化数据分析提供明确指引。

背景与挑战

背景概述

随着大语言模型在代码生成领域的深入应用，OpenDataArena研究团队于2023年推出了opc-sft-stage2_scored数据集，该数据集基于OpenCoder-LLM项目的第二阶段监督微调数据构建。通过集成多维度自动化评估框架，该数据集旨在解决代码指令遵循能力的量化评估问题，为代码大模型的精细化训练提供数据支撑，推动了编程智能领域向可解释性与可控性方向发展。

当前挑战

数据集构建面临双重挑战：在领域问题层面，需攻克代码指令的复杂性量化与模型响应质量的多维度评估难题，涉及数学推理、代码正确性及指令遵循度等复合指标的融合计算；在技术实现层面，需协调基于规则、模型判别和奖励模型的异构评分体系，并处理不同编程语言特性带来的评估尺度统一问题，同时确保自动化评分与人工评估的一致性。

常用场景

经典使用场景

在代码生成与指令遵循研究领域，该数据集通过多维评分机制为大规模代码指令数据提供精细化质量评估。研究者可基于Deita_Complexity和IFD等指标筛选高复杂度指令-响应对，用于训练更强大的代码生成模型，显著提升模型在复杂编程任务中的表现。

解决学术问题

该数据集有效解决了代码生成领域缺乏标准化评估基准的难题，通过自动化评分体系量化指令质量与模型响应效果。其多维评分指标为研究指令遵循难度、响应质量与任务复杂度间的关联提供数据支撑，推动代码生成模型从单纯功能实现向高质量语义理解方向发展。

衍生相关工作

基于该数据集的多维评分范式，衍生出OpenCodeEvaluator等自动化评估工具，以及InstructionTuning-CODEX系列模型。这些工作进一步推动了代码生成领域的标准化评估流程，为后续研究如CoNaLa和HumanEval等基准的完善提供重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集