ODA-scored-data-2603
收藏Hugging Face2026-03-05 更新2026-03-06 收录
下载链接:
https://huggingface.co/datasets/OpenDataArena/ODA-scored-data-2603
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个配置(AM-Thinking-v1-Distilled-code、AM-Thinking-v1-Distilled-math、Fast-Math-R1-SFT、LIMO、MegaScience、OmniThought-0528、OpenO1-SFT),每个配置均包含丰富的特征信息。主要特征包括:'id'(唯一标识)、'source'(数据来源)、'processed_scores'(处理后评分,含多个子特征如AtheneRM、Cleanliness等)、'raw_scores'(原始评分,子特征与processed_scores一致)、'instruction'(指令文本)和'output'(输出文本)。数据集分为训练集,各配置的训练样本数量从817到1,253,230不等,数据量从16MB到6.98GB。数据适用于自然语言处理任务,如指令微调、评分模型训练等。许可证为Apache-2.0。
创建时间:
2026-03-02
原始信息汇总
数据集概述
基本信息
- 数据集名称: ODA-scored-data-2603
- 发布者: OpenDataArena
- 许可证: Apache 2.0
- 数据集地址: https://huggingface.co/datasets/OpenDataArena/ODA-scored-data-2603
数据集配置
数据集包含多个配置,每个配置对应一个特定的数据子集。
配置一:AM-Thinking-v1-Distilled-code
- 数据量: 323,965 个样本
- 训练集大小: 6,012,273,310 字节
- 下载大小: 2,462,481,447 字节
配置二:AM-Thinking-v1-Distilled-math
- 数据量: 558,129 个样本
- 训练集大小: 6,012,694,544 字节
- 下载大小: 2,734,828,502 字节
配置三:Fast-Math-R1-SFT
- 数据量: 7,900 个样本
- 训练集大小: 226,051,027 字节
- 下载大小: 99,287,377 字节
配置四:LIMO
- 数据量: 817 个样本
- 训练集大小: 16,096,244 字节
- 下载大小: 7,571,843 字节
配置五:MegaScience
- 数据量: 1,253,230 个样本
- 训练集大小: 3,943,483,885 字节
- 下载大小: 2,148,618,111 字节
配置六:OmniThought-0528
- 数据量: 364,988 个样本
- 训练集大小: 6,980,402,995 字节
- 下载大小: 3,194,699,364 字节
配置七:OpenO1-SFT
- 数据量: 信息不完整
- 训练集大小: 信息不完整
- 下载大小: 信息不完整
数据结构
所有配置共享相同的特征结构。
核心特征
- id: 样本唯一标识符 (int64)
- source: 数据来源 (string)
- instruction: 指令文本 (string)
- output: 输出文本 (string)
评分特征
数据集包含两组多维评分:processed_scores 和 raw_scores。每组评分均包含以下29个相同的指标:
- AtheneRM
- Cleanliness
- LLM_as_Judge_Complexity
- Compress_Ratio
- Deita_Complexity
- Deita_Quality
- EmbedSVD_Entropy
- Logical_Word_Count
- HES
- IFD
- Instag
- MTLD
- Normalized_Loss
- PPL
- Professionalism
- Writing_Style
- Required_Expertise
- Facts_Trivia
- Educational_Value
- Readability
- Reasoning
- SkyworkRM_Qwen
- SkyworkRM_Llama
- Token_Entropy
- Token_Length
- TreeInstruct_Node
- TreeInstruct_Depth
- Unique_Token_Ratio
- UPD
- VOCD-D
所有评分指标的数据类型均为 float64。
搜集汇总
数据集介绍
构建方式
在大型语言模型训练领域,数据质量评估是提升模型性能的关键环节。ODA-scored-data-2603数据集通过整合多个知名指令数据集,包括AM-Thinking、Fast-Math、LIMO、MegaScience、OmniThought和OpenO1-SFT等,构建了一个大规模、多维度评分的语料库。其构建核心在于对每个数据样本应用了一套综合评估体系,涵盖了从基础的语言复杂度、专业性到高级的推理能力、教育价值等近三十种指标,并分别记录了原始评分与经过标准化处理的分数,为数据筛选与模型训练提供了精细化的量化依据。
特点
该数据集的显著特征在于其前所未有的多维评分体系,每个数据条目不仅包含指令与输出文本,更附带了由AtheneRM、SkyworkRM等多种奖励模型,以及Deita、PPL、Token熵值等传统与新兴指标计算得出的丰富元数据。这种设计使得数据集超越了单纯的文本集合,成为一个深度标注的评估基准,能够支持研究者从语言风格、逻辑深度、知识密度等多个角度对训练数据进行系统性分析与筛选,尤其适用于数据质量过滤、课程学习策略以及模型对齐等前沿研究方向。
使用方法
研究人员可利用该数据集进行多方面的探索。在实践层面,可直接依据processed_scores中的标准化分数,设定阈值对原始指令数据进行过滤或加权采样,以构建高质量的训练子集。在方法研究层面,通过分析raw_scores与processed_scores中各类指标(如Reasoning、Educational_Value)与模型性能的关联性,可以深入探究不同数据属性对模型能力的影响机制。此外,该数据集的多配置结构允许用户按领域(如代码、数学)分别加载和分析,为领域特定的模型微调提供精准的数据支持。
背景与挑战
背景概述
在大型语言模型(LLM)的微调与对齐研究中,高质量指令数据的筛选与评估构成了核心挑战。ODA-scored-data-2603数据集应运而生,旨在通过多维度量化指标对指令数据进行系统性评分,从而为模型训练提供精细化、可解释的数据质量评估框架。该数据集整合了多个知名开源指令数据集,如AM-Thinking、LIMO、MegaScience等,并引入了涵盖复杂性、专业性、可读性、推理深度等三十余项评估维度的评分体系,包括AtheneRM、Deita_Quality、LLM_as_Judge_Complexity等先进评估器。其构建反映了当前LLM数据工程领域向标准化、可复现评估范式演进的重要趋势,为研究者提供了探索数据质量与模型性能关联的宝贵资源。
当前挑战
该数据集致力于解决指令数据质量评估的复杂性问题,其核心挑战在于如何定义并量化“高质量”指令的多维属性。现有评估指标如AtheneRM、SkyworkRM等虽能捕捉部分特征,但不同评估器之间可能存在评分分歧,难以形成统一的质量共识。在构建过程中,挑战主要体现在大规模数据标注的自动化与一致性上,例如如何高效集成多种评估模型并处理其原始输出,以及如何设计合理的分数归一化流程以确保跨数据集的公平比较。此外,评估维度如Educational_Value、Reasoning等涉及主观判断,其自动化评分的可靠性与人类评估的一致性仍需进一步验证。
常用场景
经典使用场景
在大语言模型指令微调领域,ODA-scored-data-2603数据集凭借其丰富的多维评分特征,成为数据筛选与质量评估的经典工具。该数据集整合了代码、数学、科学等多个专业领域的指令-输出对,并附带了涵盖复杂性、专业性、可读性等维度的三十余种自动化评分,为研究者提供了量化数据质量的统一框架。其经典使用场景在于构建高质量的训练数据子集,通过多维度评分进行排序与过滤,从而提升模型在特定任务上的性能表现。
解决学术问题
该数据集有效解决了指令微调数据质量评估标准不统一的学术难题。传统方法依赖人工标注或单一指标,难以全面衡量数据的教育价值、逻辑严谨性与风格适宜性。ODA-scored-data-2603通过集成AtheneRM、Deita_Quality、LLM_as_Judge_Complexity等多种先进评估器,提供了标准化、可复现的质量度量体系。这促进了数据选择策略的科学研究,使得基于数据内在属性的筛选与混合方法得以系统化探索,推动了高效微调技术的发展。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在数据选择算法与模型性能关联性研究。研究者利用其丰富的评分特征,开发了基于帕累托前沿的多目标数据选择方法,以及结合元学习的数据混合策略。这些工作深入探讨了不同质量维度(如复杂性、熵值、专业性)对模型最终能力的影响机制。此外,该数据集也常被用作基准,用于验证新型数据评分函数或过滤模型的有效性,推动了数据为中心的人工智能研究范式。
以上内容由遇见数据集搜集并总结生成



