OpenDataArena-scored-data

Hugging Face2025-10-25 更新2025-10-26 收录

下载链接：

https://huggingface.co/datasets/OpenDataArena/OpenDataArena-scored-data

下载链接

链接失效反馈

官方服务：

资源简介：

OpenDataArena-scored-data是一个包含超过47个用于监督微调的原始数据集的评分和增强版本，每个数据样本都包含了丰富的多维度评分，用于评估指令和指令-回答对的质量和复杂性。

OpenDataArena-scored-data is a scored and enhanced version of over 47 raw datasets designed for supervised fine-tuning. Each data sample contains rich multi-dimensional scores used to evaluate the quality and complexity of instructions and instruction-response pairs.

创建时间：

2025-10-25

原始信息汇总

OpenDataArena-scored-data 数据集概述

数据集基本信息

数据集名称: OpenDataArena-scored-data
数据内容: 包含47+个原始数据集的评分增强版本，专门用于监督微调
数据格式: JSON Lines (JSONL) 格式
处理工具: 使用OpenDataArena-Tool进行自动化评估处理

核心特征

为每个指令和指令-响应对提供多维评分
将原始数据集从简单文本集合转换为结构化、可查询的训练资源
支持细粒度数据分析和选择

数据结构

每个JSON对象包含以下字段：

instruction: 原始指令文本
output: 模型响应文本
Q_scores: 指令评估分数字典
QA_scores: 指令-响应对评估分数字典

评分维度

Q_scores（指令评估）

Deita_Complexity: 模型估计的指令复杂度（1-6分）
Thinking_Prob: 数学问题深度推理必要性评估
Difficulty: 代码或数学问题难度评估
Clarity: 指令清晰度评估
Coherence: 指令逻辑一致性评估
Completeness: 指令完整性评估
Complexity: 指令固有复杂度评估
Correctness: 指令事实准确性评估
Meaningfulness: 指令实用价值评估

QA_scores（指令-响应对评估）

Deita_Quality: 指令-响应对整体质量评估（1-6分）
IFD: 指令遵循难度评估
Reward_Model: Skywork奖励模型评分
Fail_Rate: 模型失败概率估计
Relevance: 回答相关性评估
Clarity: 回答清晰度评估
Coherence: 回答逻辑一致性评估
Completeness: 回答完整性评估
Complexity: 回答推理深度评估
Correctness: 回答事实准确性评估
Meaningfulness: 回答价值性评估
A_Length: 响应长度（基于o200k_base编码器）

主要应用场景

高质量数据过滤
课程学习设计
错误分析
复杂度分层
数据混合优化

引用信息

如需使用本数据集，请引用原始数据集和OpenDataArena-Tool工具。

搜集汇总

数据集介绍

构建方式

在监督微调领域，数据集的质量评估常依赖主观判断。OpenDataArena-scored-data通过OpenDataArena-Tool自动化评估套件，对47个原始数据集进行系统化重构。该工具采用模型驱动与LLM-as-Judge双轨评分机制，为每个指令生成多维质量指标，将传统文本集合转化为具备结构化评分体系的科学资源。

使用方法

研究人员可通过HuggingFace数据集库直接加载特定子集，利用动态过滤功能实现精准数据遴选。例如结合Deita_Quality与Correctness构建优质训练集，或依据IFD指标设计渐进式课程学习方案。数据集采用的JSONL格式与标准API接口，确保了与主流训练框架的无缝衔接。

背景与挑战

背景概述

随着大语言模型在监督微调阶段的精细化需求日益增长，OpenDataArena项目于2025年由同名研究团队推出OpenDataArena-scored-data数据集。该数据集整合了47个原始指令遵循数据集，通过自动化评估工具OpenDataArena-Tool对每个样本进行多维度量化评分，旨在将数据价值评估从经验性猜测转变为系统性科学。其核心研究聚焦于解决指令遵循质量与模型训练效率之间的关联性问题，为构建高质量训练数据提供了结构化分析基础，显著推进了数据驱动的人工智能训练方法论发展。

当前挑战

在指令遵循数据质量评估领域，传统方法难以量化响应质量与指令复杂度间的动态关系。该数据集通过引入Deita_Complexity和IFD等指标，专门应对复杂指令的认知需求评估难题。构建过程中面临多源数据标准化处理的挑战，需协调不同数据集的标注规范与质量差异；同时，自动化评分系统需平衡模型评估与人工标注的一致性，确保评分维度如Relevance和Correctness在不同领域问题中的普适性，这对跨领域指令遵循能力的统一度量提出了严格要求。

常用场景

经典使用场景

在监督微调领域，该数据集通过多维评分机制为指令-响应对提供精细质量评估。研究者可依据Deita_Quality与Correctness分数筛选优质样本构建黄金训练集，或基于IFD指标设计从简到繁的课程学习路径，显著提升语言模型对复杂指令的适应能力。

解决学术问题

该数据集解决了传统指令数据集缺乏量化评估标准的学术难题，将主观质量判断转化为可复现的科学度量。通过Deita_Complexity与Reward_Model等指标，系统揭示了指令复杂度与模型响应质量的关联规律，为数据选择理论提供了实证基础，推动语言模型训练从经验驱动向数据驱动范式转变。

实际应用

在工业实践中，该数据集支持企业构建高性能对话系统。通过Fail_Rate指标定位模型薄弱环节，结合Relevance分数优化输出准确性。教育科技领域可利用难度分层功能定制个性化学习路径，金融行业则借助严谨的Correctness评估确保合规性文本生成，实现跨领域的智能化升级。

数据集最近研究