five

OpenHermes-shuffle_scored

收藏
Hugging Face2025-07-29 更新2025-07-30 收录
下载链接:
https://huggingface.co/datasets/OpenDataArena/OpenHermes-shuffle_scored
下载链接
链接失效反馈
官方服务:
资源简介:
OpenHermes-shuffle_scored是一个包含评分的指令遵循数据集,它提供了对指令和指令-响应对的详细评分,用于评估其质量和复杂性。
创建时间:
2025-07-26
原始信息汇总

OpenHermes-shuffle_scored 数据集概述

数据集来源

数据格式

  • 数据集以 JSON Lines (JSONL) 格式提供。
  • 每行数据为一个 JSON 对象,包含以下字段:
    • instruction: 原始指令。
    • output: 模型的响应。
    • Q_scores: 评估指令质量的分数。
    • QA_scores: 评估指令-响应对质量的分数。
  • 注意:某些分数可能为 null,表示不适用或未运行特定评分器。

评分维度

问题级别分数 (Q_scores)

评估指令本身的质量和复杂性:

  • Deita_Complexity: 估计指令复杂性(1-6分)。
  • Thinking_Prob: 数学问题的深度推理必要性。
  • Difficulty: 代码或数学问题的难度。
  • Clarity, Coherence, Completeness, Complexity, Correctness, Meaningfulness: 评估指令的清晰度、逻辑一致性、完整性、复杂性、准确性和实用价值。

问题-回答对分数 (QA_scores)

评估响应在指令上下文中的质量:

  • Deita_Quality: 估计指令-响应对的整体质量(1-6分)。
  • IFD: 指令遵循难度。
  • Reward_Model: 奖励分数,表示响应的偏好和对齐程度。
  • Fail_Rate: 模型失败的概率(如数学问题)。
  • Relevance: 响应是否聚焦于问题。
  • Clarity, Coherence, Completeness, Complexity, Correctness, Meaningfulness: 评估响应的清晰度、逻辑一致性、完整性、复杂性、准确性和洞察力。
  • A_Length: 响应的令牌数量。

数据集访问

使用 🤗 datasets 库加载数据集: python from datasets import load_dataset dataset = load_dataset("OpenDataArena/OpenHermes-shuffle_scored")

相关资源

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,高质量数据集的构建对模型训练至关重要。OpenHermes-shuffle_scored数据集基于原始OpenHermes-2.5数据集,通过OpenDataArena-Tool自动化评估工具进行系统化评分构建。该工具采用多维评分体系,对指令和指令-响应对分别进行量化评估,涵盖复杂性、清晰度、连贯性等指标,部分样本因特定评分器不适用而保留空值,确保评估的精确性和针对性。
特点
该数据集的核心特点在于其丰富的多维度评分体系。指令层面通过Deita_Complexity等指标评估认知需求,指令-响应对层面则通过Deita_Quality、奖励模型分数等衡量响应质量。评分维度兼具模型自动评估和LLM-as-Judge人工模拟评估,既包含数学推理专项指标,也涵盖语义完整性和事实准确性等通用维度,为研究者提供细粒度的数据质量分析基础。
使用方法
研究人员可通过Hugging Face datasets库直接加载该数据集,利用其JSONL格式和嵌套评分字段进行深入分析。数据集支持对指令质量、响应适配度等维度的筛选与排序,适用于训练数据精选、模型性能评估等场景。通过解析Q_scores和QA_scores中的多维度指标,用户可构建定制化的数据子集,为指令微调和模型对齐研究提供结构化支持。
背景与挑战
背景概述
随着大语言模型在自然语言处理领域的快速发展,高质量指令微调数据集的需求日益凸显。OpenHermes-shuffle_scored数据集由OpenDataArena团队基于teknium/OpenHermes-2.5数据集构建,通过自动化评估工具OpenDataArena-Tool对原始数据进行多维度评分。该数据集专注于提升指令跟随能力与响应质量评估的精细化程度,为模型训练与数据筛选提供了科学依据,对推动对话系统与指令优化研究具有重要意义。
当前挑战
该数据集致力于解决指令微调任务中质量评估标准化的核心难题,包括指令复杂性量化、响应相关性判断以及多维度质量评估体系的建立。在构建过程中面临自动化评分系统的开发挑战,需要整合模型基准评估与人类评判标准,确保评分指标的全面性与可靠性,同时处理不同领域指令的特殊性,如数学问题的推理难度评估与代码问题的复杂度分析。
常用场景
经典使用场景
在自然语言处理领域,OpenHermes-shuffle_scored数据集为指令微调与对话生成研究提供了标准化评估基准。研究者通过其多维评分体系,能够系统分析指令复杂度与模型响应质量的关联性,特别适用于大语言模型在复杂推理、数学计算和代码生成等任务中的性能评测。该数据集支持细粒度的样本筛选机制,为构建高质量训练子集提供数据支撑。
衍生相关工作
基于该数据集衍生的经典研究包括指令优化算法开发与数据选择策略创新。众多团队利用其评分体系构建了动态数据清洗管道,诞生了诸如自适应难度采样、多目标强化学习调优等前沿方法。在数据高效学习领域,该数据集催生了基于质量感知的课程学习框架,为数据-centric的AI研究范式提供了重要实践案例。
数据集最近研究
最新研究方向
在指令微调数据集研究领域,OpenHermes-shuffle_scored通过多维评分机制推动数据质量评估范式的革新。该数据集融合模型基评估与LLM-as-Judge技术,对指令复杂度、推理难度及响应质量进行量化,为构建高效指令筛选管道提供数据基础。其评分体系特别关注数学推理与代码生成的失败率预测,直接响应了大模型在复杂任务中稳定性提升的研究热点。这种精细化数据标注方法正被广泛应用于指令优化、模型对齐及数据蒸馏等前沿方向,显著提升了指令跟随模型的泛化能力和可靠性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作