OpenThoughts3-1_2M-all_scored

Hugging Face2025-07-29 更新2025-07-30 收录

下载链接：

https://huggingface.co/datasets/OpenDataArena/OpenThoughts3-1_2M-all_scored

下载链接

链接失效反馈

官方服务：

资源简介：

OpenThoughts3-1.2M全部评分版数据集，包含了指令和指令-响应对的多维度评分，用于评估和选择指令跟随数据集。

创建时间：

2025-07-26

原始信息汇总

OpenThoughts3-1_2M-all_scored 数据集概述

数据集来源

该数据集是原始数据集 open-thoughts/OpenThoughts3-1.2M 的评分版本。
数据来源于 OpenDataArena 项目。

数据格式

数据集以 JSON Lines (JSONL) 格式提供。
每行是一个 JSON 对象，包含以下字段：
- instruction: 原始指令。
- output: 模型的响应。
- Q_scores: 评估指令质量的字典。
- QA_scores: 评估指令-响应对质量的字典。
注意：某些分数可能为 null，表示不适用或未运行。

评分维度

问题级评分（`Q_scores` 字段）

评估指令的质量和复杂性：

Deita_Complexity: 估计指令复杂性（1-6 分）。
Thinking_Prob: 数学问题的深度推理必要性。
Difficulty: 代码或数学问题的难度。
Clarity, Coherence, Completeness, Complexity, Correctness, Meaningfulness: 评估指令的清晰度、逻辑一致性、完整性、复杂性、准确性和实用性。

问题-答案对评分（`QA_scores` 字段）

评估响应在指令上下文中的质量：

Deita_Quality: 估计指令-响应对的整体质量（1-6 分）。
IFD: 指令遵循难度。
Reward_Model: 奖励分数，表示响应的偏好程度。
Fail_Rate: 模型失败概率（如数学问题）。
Relevance: 响应与问题的相关性。
Clarity, Coherence, Completeness, Complexity, Correctness, Meaningfulness: 评估响应的清晰度、逻辑一致性、完整性、复杂性、准确性和洞察力。
A_Length: 响应长度（以令牌数计）。

数据集访问

使用 🤗 datasets 库加载数据集： python from datasets import load_dataset dataset = load_dataset("OpenDataArena/OpenThoughts3-1_2M-all_scored")

相关资源

评分工具: OpenDataArena-Tool
OpenDataArena 项目: OpenDataArena Platform
原始数据集: open-thoughts/OpenThoughts3-1.2M

搜集汇总

数据集介绍

构建方式

在指令微调数据集构建领域，OpenThoughts3-1_2M-all_scored基于原始OpenThoughts3-1.2M数据集，采用OpenDataArena-Tool自动化评估工具进行多维度评分。该工具融合模型驱动与LLM-as-Judge方法，对指令质量及指令-响应对进行精细化量化，涵盖认知复杂度、逻辑一致性与事实准确性等维度，部分特殊样本保留空值以保持评估严谨性。

使用方法

研究者可通过Hugging Face datasets库直接加载该数据集，利用其结构化JSONL格式高效访问嵌套评分字段。数据集支持对指令复杂度、响应质量等指标的筛选与分析，适用于大语言模型微调、数据质量评估及自动化评分体系验证等场景，为指令优化与模型对齐研究提供量化支撑。

背景与挑战

背景概述

随着大语言模型在指令遵循任务中的广泛应用，高质量训练数据的评估与筛选成为关键研究课题。OpenDataArena团队于2023年推出的OpenThoughts3-1_2M-all_scored数据集，通过多维度自动化评分体系对原始指令-响应对进行量化评估，其创新性地融合了模型驱动与LLM-as-Judge双重评估范式，为指令调优数据的质量评估建立了新的基准。该数据集通过系统化的评分维度设计，显著提升了数据筛选效率与模型训练效果，对促进语言模型对齐研究具有重要推动作用。

当前挑战

该数据集致力于解决指令遵循数据质量评估的复杂性挑战，具体体现在需同时评估指令的清晰度、复杂性与响应的相关性、准确性等多重维度。构建过程中的核心挑战在于设计全面且一致的自动化评估框架，整合Deita复杂度模型与LLM评判系统，确保评分标准的科学性与可复现性。此外，处理大规模数据时需克服计算资源消耗与评分项缺失值的协调问题，保持评估结果在不同数据类型间的可比性与有效性。

常用场景

经典使用场景

在指令微调与对话系统优化研究中，该数据集凭借多维评分体系成为模型训练与评估的关键基准。研究者通过分析指令复杂度与响应质量的关联性，能够精准筛选高质量样本用于监督微调，显著提升语言模型对复杂指令的理解与执行能力。其丰富的评分维度为构建分层训练策略提供了数据支撑，助力模型在数学推理、代码生成等需要多步思考的任务中展现更优异的性能。

解决学术问题

该数据集有效解决了指令跟随质量量化评估的学术难题，通过自动化评分体系突破了传统人工评估的瓶颈。其融合模型基与LLM评判的双重评分机制，为指令复杂性度量、响应对齐度分析提供了可靠标准，显著推进了对话系统可解释性研究。多维评分指标不仅助力构建高质量训练数据筛选范式，更为评估模型在跨领域任务中的泛化能力建立了科学框架。

实际应用

在实际工业场景中，该数据集为对话系统开发提供了数据优选方案。企业可依据指令清晰度、响应相关度等指标快速过滤低质量数据，提升客服机器人与智能助手的服务效能。其数学问题失败率预测与代码难度评分功能，特别适用于教育科技领域智能辅导系统的开发，通过精准匹配用户能力与题目难度，实现个性化学习路径规划。

数据集最近研究