OpenHermes-shuffle_scored

Hugging Face2025-07-29 更新2025-07-30 收录

下载链接：

https://huggingface.co/datasets/OpenDataArena/OpenHermes-shuffle_scored

下载链接

链接失效反馈

官方服务：

资源简介：

OpenHermes-shuffle_scored是一个包含评分的指令遵循数据集，它提供了对指令和指令-响应对的详细评分，用于评估其质量和复杂性。

创建时间：

2025-07-26

原始信息汇总

OpenHermes-shuffle_scored 数据集概述

数据集来源

本数据集是基于原始数据集 teknium/OpenHermes-2.5 的评分版本。
评分由 OpenDataArena-Tool 完成，该工具是一套用于评估指令遵循数据集的自动化评估方法。

数据格式

数据集以 JSON Lines (JSONL) 格式提供。
每行数据为一个 JSON 对象，包含以下字段：
- instruction: 原始指令。
- output: 模型的响应。
- Q_scores: 评估指令质量的分数。
- QA_scores: 评估指令-响应对质量的分数。
注意：某些分数可能为 null，表示不适用或未运行特定评分器。

评分维度

问题级别分数 (`Q_scores`)

评估指令本身的质量和复杂性：

Deita_Complexity: 估计指令复杂性（1-6分）。
Thinking_Prob: 数学问题的深度推理必要性。
Difficulty: 代码或数学问题的难度。
Clarity, Coherence, Completeness, Complexity, Correctness, Meaningfulness: 评估指令的清晰度、逻辑一致性、完整性、复杂性、准确性和实用价值。

问题-回答对分数 (`QA_scores`)

评估响应在指令上下文中的质量：

Deita_Quality: 估计指令-响应对的整体质量（1-6分）。
IFD: 指令遵循难度。
Reward_Model: 奖励分数，表示响应的偏好和对齐程度。
Fail_Rate: 模型失败的概率（如数学问题）。
Relevance: 响应是否聚焦于问题。
Clarity, Coherence, Completeness, Complexity, Correctness, Meaningfulness: 评估响应的清晰度、逻辑一致性、完整性、复杂性、准确性和洞察力。
A_Length: 响应的令牌数量。

数据集访问

使用 🤗 datasets 库加载数据集： python from datasets import load_dataset dataset = load_dataset("OpenDataArena/OpenHermes-shuffle_scored")

相关资源

评分工具: OpenDataArena-Tool
OpenDataArena 项目: OpenDataArena Platform
原始数据集: OpenDataArena-Tool

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量数据集的构建对模型训练至关重要。OpenHermes-shuffle_scored数据集基于原始OpenHermes-2.5数据集，通过OpenDataArena-Tool自动化评估工具进行系统化评分构建。该工具采用多维评分体系，对指令和指令-响应对分别进行量化评估，涵盖复杂性、清晰度、连贯性等指标，部分样本因特定评分器不适用而保留空值，确保评估的精确性和针对性。

特点

该数据集的核心特点在于其丰富的多维度评分体系。指令层面通过Deita_Complexity等指标评估认知需求，指令-响应对层面则通过Deita_Quality、奖励模型分数等衡量响应质量。评分维度兼具模型自动评估和LLM-as-Judge人工模拟评估，既包含数学推理专项指标，也涵盖语义完整性和事实准确性等通用维度，为研究者提供细粒度的数据质量分析基础。

使用方法

研究人员可通过Hugging Face datasets库直接加载该数据集，利用其JSONL格式和嵌套评分字段进行深入分析。数据集支持对指令质量、响应适配度等维度的筛选与排序，适用于训练数据精选、模型性能评估等场景。通过解析Q_scores和QA_scores中的多维度指标，用户可构建定制化的数据子集，为指令微调和模型对齐研究提供结构化支持。

背景与挑战

背景概述

随着大语言模型在自然语言处理领域的快速发展，高质量指令微调数据集的需求日益凸显。OpenHermes-shuffle_scored数据集由OpenDataArena团队基于teknium/OpenHermes-2.5数据集构建，通过自动化评估工具OpenDataArena-Tool对原始数据进行多维度评分。该数据集专注于提升指令跟随能力与响应质量评估的精细化程度，为模型训练与数据筛选提供了科学依据，对推动对话系统与指令优化研究具有重要意义。

当前挑战

该数据集致力于解决指令微调任务中质量评估标准化的核心难题，包括指令复杂性量化、响应相关性判断以及多维度质量评估体系的建立。在构建过程中面临自动化评分系统的开发挑战，需要整合模型基准评估与人类评判标准，确保评分指标的全面性与可靠性，同时处理不同领域指令的特殊性，如数学问题的推理难度评估与代码问题的复杂度分析。

常用场景

经典使用场景

在自然语言处理领域，OpenHermes-shuffle_scored数据集为指令微调与对话生成研究提供了标准化评估基准。研究者通过其多维评分体系，能够系统分析指令复杂度与模型响应质量的关联性，特别适用于大语言模型在复杂推理、数学计算和代码生成等任务中的性能评测。该数据集支持细粒度的样本筛选机制，为构建高质量训练子集提供数据支撑。

衍生相关工作

基于该数据集衍生的经典研究包括指令优化算法开发与数据选择策略创新。众多团队利用其评分体系构建了动态数据清洗管道，诞生了诸如自适应难度采样、多目标强化学习调优等前沿方法。在数据高效学习领域，该数据集催生了基于质量感知的课程学习框架，为数据-centric的AI研究范式提供了重要实践案例。

数据集最近研究