OpenThoughts_scored

Hugging Face2025-07-29 更新2025-07-30 收录

下载链接：

https://huggingface.co/datasets/OpenDataArena/OpenThoughts_scored

下载链接

链接失效反馈

官方服务：

资源简介：

OpenThoughts_scored数据集是OpenThoughts-114k数据集的评分版，包含了对指令和指令-响应对的多维评分，用于细致的数据分析和选择。

创建时间：

2025-07-26

原始信息汇总

OpenThoughts_scored 数据集概述

数据集来源

本数据集是基于原始数据集 open-thoughts/OpenThoughts-114k 的评分版本。
评分由 OpenDataArena-Tool 完成，该工具是一个用于评估指令遵循数据集的自动化评估套件。

数据格式

数据集以 JSON Lines (JSONL) 格式提供。
每行数据包含以下字段：
- instruction: 原始指令。
- output: 模型的响应。
- Q_scores: 评估指令质量的分数字典。
- QA_scores: 评估指令-响应对质量的分数字典。

评分维度

问题级评分 (`Q_scores`)

Deita_Complexity: 评估指令复杂度（1-6分）。
Thinking_Prob: 数学问题深度推理的必要性。
Difficulty: 代码或数学问题的难度。
Clarity, Coherence, Completeness, Complexity, Correctness, Meaningfulness: 评估指令的清晰度、逻辑一致性、自包含性、复杂性、准确性和实用价值。

问题-答案对评分 (`QA_scores`)

Deita_Quality: 评估指令-响应对的整体质量（1-6分）。
IFD: 模型遵循指令的难度。
Reward_Model: 响应与指令的对齐程度。
Fail_Rate: 模型失败概率（如数学问题）。
Relevance: 响应与问题的相关性。
Clarity, Coherence, Completeness, Complexity, Correctness, Meaningfulness: 评估响应的清晰度、逻辑一致性、完整性、推理深度、准确性和洞察力。
A_Length: 响应的令牌数量。

数据集访问

使用 🤗 datasets 库加载数据集： python from datasets import load_dataset dataset = load_dataset("OpenDataArena/OpenThoughts_scored")

相关资源

评分工具: OpenDataArena-Tool
原始数据集: open-thoughts/OpenThoughts-114k

搜集汇总

数据集介绍

构建方式

在指令微调数据集研究领域，OpenThoughts_scored基于原始OpenThoughts-114k数据集，采用OpenDataArena-Tool自动化评估工具进行多维度评分构建。该工具融合模型驱动与基于大语言模型的评判方法，对指令质量及指令-响应对进行精细化打分，涵盖复杂性、清晰度、逻辑一致性等指标，部分样本因任务特性或评分器适用范围可能存在空值，整体构建过程确保了评分的全面性与科学性。

特点

该数据集的核心特征在于其丰富的多维度评分体系，分别针对指令本身和指令-响应对设计了独立评估维度。指令层面通过Deita_Complexity及思维概率等指标衡量认知需求，而响应对层面则引入指令遵循难度、奖励模型分数及失败率等深度指标。所有评分均以JSONL格式存储，支持嵌套字段查询，为研究人员提供了细粒度的数据筛选与分析能力，显著提升了数据集在模型训练与评估中的实用价值。

使用方法

研究人员可通过Hugging Face的datasets库直接加载该数据集，利用Python环境快速访问指令、输出及嵌套的评分字段。实际应用中，用户可依据Q_scores和QA_scores中的具体指标进行数据过滤，例如选取高复杂性指令或高质量响应对以优化模型训练。该数据集适用于指令遵循能力评估、模型微调及自动化数据质量控制等场景，其结构化评分体系为实证研究提供了可靠的数据支撑。

背景与挑战

背景概述

随着大语言模型在指令跟随任务中的广泛应用，评估数据质量成为模型性能优化的关键环节。OpenThoughts_scored数据集由OpenDataArena团队基于原始OpenThoughts-114k数据集构建，通过自动化评估工具OpenDataArena-Tool对指令和响应进行多维度量化评分。该数据集首次系统性地将模型基于评估与LLM-as-Judge方法相结合，为指令调优数据筛选提供了标准化评估框架，显著提升了高质量训练数据的筛选效率。

当前挑战

该数据集致力于解决指令跟随数据质量评估的复杂性挑战，包括指令本身的质量量化、响应与指令的匹配度评估，以及跨领域任务的统一评分标准制定。在构建过程中面临多维度评分体系融合的技术挑战，需要协调模型基于评估与规则算法的一致性，同时处理数学推理、代码生成等特殊任务的评分适配性问题，确保评分结果在不同数据类型间具有可比性和可靠性。

常用场景

经典使用场景

在自然语言处理领域，OpenThoughts_scored数据集凭借其多维评分机制，为指令微调任务提供了精细化数据筛选标准。研究者可依据Deita_Complexity指标选取高认知需求的指令，或通过Reward_Model分数筛选高质量问答对，显著提升语言模型在复杂指令理解与执行方面的性能。

解决学术问题

该数据集有效解决了指令跟随质量评估体系缺失的学术难题，通过量化指标替代主观评价，为数据清洗和课程学习策略提供科学依据。其多维评分体系突破了传统单一质量评估的局限，使研究者能精准识别数据价值，推动指令微调技术向可解释、可量化的方向发展。

衍生相关工作

基于该数据集衍生的经典工作包括数据选择算法优化研究，如利用Deita_Quality分数实现课程学习策略自动化；以及多目标强化学习框架开发，通过协调不同评分维度提升模型综合性能。这些工作显著推动了数据为中心的人工智能方法论发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集