OpenThoughts_scored
收藏Hugging Face2025-07-29 更新2025-07-30 收录
下载链接:
https://huggingface.co/datasets/OpenDataArena/OpenThoughts_scored
下载链接
链接失效反馈官方服务:
资源简介:
OpenThoughts_scored数据集是OpenThoughts-114k数据集的评分版,包含了对指令和指令-响应对的多维评分,用于细致的数据分析和选择。
创建时间:
2025-07-26
原始信息汇总
OpenThoughts_scored 数据集概述
数据集来源
- 本数据集是基于原始数据集 open-thoughts/OpenThoughts-114k 的评分版本。
- 评分由 OpenDataArena-Tool 完成,该工具是一个用于评估指令遵循数据集的自动化评估套件。
数据格式
- 数据集以 JSON Lines (JSONL) 格式提供。
- 每行数据包含以下字段:
instruction: 原始指令。output: 模型的响应。Q_scores: 评估指令质量的分数字典。QA_scores: 评估指令-响应对质量的分数字典。
评分维度
问题级评分 (Q_scores)
Deita_Complexity: 评估指令复杂度(1-6分)。Thinking_Prob: 数学问题深度推理的必要性。Difficulty: 代码或数学问题的难度。Clarity,Coherence,Completeness,Complexity,Correctness,Meaningfulness: 评估指令的清晰度、逻辑一致性、自包含性、复杂性、准确性和实用价值。
问题-答案对评分 (QA_scores)
Deita_Quality: 评估指令-响应对的整体质量(1-6分)。IFD: 模型遵循指令的难度。Reward_Model: 响应与指令的对齐程度。Fail_Rate: 模型失败概率(如数学问题)。Relevance: 响应与问题的相关性。Clarity,Coherence,Completeness,Complexity,Correctness,Meaningfulness: 评估响应的清晰度、逻辑一致性、完整性、推理深度、准确性和洞察力。A_Length: 响应的令牌数量。
数据集访问
- 使用 🤗
datasets库加载数据集: python from datasets import load_dataset dataset = load_dataset("OpenDataArena/OpenThoughts_scored")
相关资源
- 评分工具: OpenDataArena-Tool
- 原始数据集: open-thoughts/OpenThoughts-114k
搜集汇总
数据集介绍

构建方式
在指令微调数据集研究领域,OpenThoughts_scored基于原始OpenThoughts-114k数据集,采用OpenDataArena-Tool自动化评估工具进行多维度评分构建。该工具融合模型驱动与基于大语言模型的评判方法,对指令质量及指令-响应对进行精细化打分,涵盖复杂性、清晰度、逻辑一致性等指标,部分样本因任务特性或评分器适用范围可能存在空值,整体构建过程确保了评分的全面性与科学性。
特点
该数据集的核心特征在于其丰富的多维度评分体系,分别针对指令本身和指令-响应对设计了独立评估维度。指令层面通过Deita_Complexity及思维概率等指标衡量认知需求,而响应对层面则引入指令遵循难度、奖励模型分数及失败率等深度指标。所有评分均以JSONL格式存储,支持嵌套字段查询,为研究人员提供了细粒度的数据筛选与分析能力,显著提升了数据集在模型训练与评估中的实用价值。
使用方法
研究人员可通过Hugging Face的datasets库直接加载该数据集,利用Python环境快速访问指令、输出及嵌套的评分字段。实际应用中,用户可依据Q_scores和QA_scores中的具体指标进行数据过滤,例如选取高复杂性指令或高质量响应对以优化模型训练。该数据集适用于指令遵循能力评估、模型微调及自动化数据质量控制等场景,其结构化评分体系为实证研究提供了可靠的数据支撑。
背景与挑战
背景概述
随着大语言模型在指令跟随任务中的广泛应用,评估数据质量成为模型性能优化的关键环节。OpenThoughts_scored数据集由OpenDataArena团队基于原始OpenThoughts-114k数据集构建,通过自动化评估工具OpenDataArena-Tool对指令和响应进行多维度量化评分。该数据集首次系统性地将模型基于评估与LLM-as-Judge方法相结合,为指令调优数据筛选提供了标准化评估框架,显著提升了高质量训练数据的筛选效率。
当前挑战
该数据集致力于解决指令跟随数据质量评估的复杂性挑战,包括指令本身的质量量化、响应与指令的匹配度评估,以及跨领域任务的统一评分标准制定。在构建过程中面临多维度评分体系融合的技术挑战,需要协调模型基于评估与规则算法的一致性,同时处理数学推理、代码生成等特殊任务的评分适配性问题,确保评分结果在不同数据类型间具有可比性和可靠性。
常用场景
经典使用场景
在自然语言处理领域,OpenThoughts_scored数据集凭借其多维评分机制,为指令微调任务提供了精细化数据筛选标准。研究者可依据Deita_Complexity指标选取高认知需求的指令,或通过Reward_Model分数筛选高质量问答对,显著提升语言模型在复杂指令理解与执行方面的性能。
解决学术问题
该数据集有效解决了指令跟随质量评估体系缺失的学术难题,通过量化指标替代主观评价,为数据清洗和课程学习策略提供科学依据。其多维评分体系突破了传统单一质量评估的局限,使研究者能精准识别数据价值,推动指令微调技术向可解释、可量化的方向发展。
衍生相关工作
基于该数据集衍生的经典工作包括数据选择算法优化研究,如利用Deita_Quality分数实现课程学习策略自动化;以及多目标强化学习框架开发,通过协调不同评分维度提升模型综合性能。这些工作显著推动了数据为中心的人工智能方法论发展。
以上内容由遇见数据集搜集并总结生成



