OmniScore-Data

Hugging Face2026-04-05 更新2026-04-06 收录

下载链接：

https://huggingface.co/datasets/QCRI/OmniScore-Data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含结构化文本数据，主要特征包括：输入文本（input）、输出文本（output）、任务类型（task）、语言（language）以及包含四个评估维度的标签体系（labels）。标签体系具体包含清晰度（clarity）、忠实度（faithfulness）、信息量（informativeness）和合理性（plausibility）四个子维度，每个子维度均包含分数评分（score）。数据集划分为训练集（539,015个样本，1.92GB）、验证集（24,524个样本，148MB）和测试集（17,175个样本，49MB）三部分，总大小约2.11GB。

创建时间：

2026-04-03

原始信息汇总

OmniScore-Data 数据集概述

数据集基本信息

数据集名称: OmniScore-Data
发布者/机构: QCRI
数据集地址: https://huggingface.co/datasets/QCRI/OmniScore-Data

数据集结构与内容

特征字段:
- input: 输入文本，数据类型为字符串。
- output: 输出文本，数据类型为字符串。
- task: 任务类型，数据类型为字符串。
- language: 语言，数据类型为字符串。
- labels: 评分标签，为结构化数据，包含以下四个维度的分数：
  - clarity: 清晰度，包含score（分数，数据类型为float64）。
  - faithfulness: 忠实度，包含score（分数，数据类型为float64）。
  - informativeness: 信息量，包含score（分数，数据类型为float64）。
  - plausibility: 合理性，包含score（分数，数据类型为float64）。

数据集划分与规模

划分情况:
- train（训练集）: 包含539,015个样本，大小约为1,916,435,301字节。
- validation（验证集）: 包含24,524个样本，大小约为148,420,948字节。
- test（测试集）: 包含17,175个样本，大小约为48,961,676字节。
总体规模:
- 下载大小: 约851,923,065字节。
- 数据集总大小: 约2,113,817,925字节。

数据配置

默认配置名称: default
数据文件路径:
- 训练集: data/train-*
- 验证集: data/validation-*
- 测试集: data/test-*

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估生成文本的质量是一个核心挑战。OmniScore-Data的构建过程体现了系统化的数据采集与标注策略。该数据集通过整合多样化的文本生成任务，如摘要、翻译和对话生成，确保了任务类型的广泛覆盖。每个样本均包含输入文本、生成输出及对应的任务类别与语言信息。关键步骤在于多维度的人工标注，由专业标注员依据清晰度、忠实度、信息量和合理性四个维度对生成文本进行精细评分，从而构建了一个大规模、高质量的多维度评估数据集。

特点

OmniScore-Data的显著特点在于其多维度的评估框架与丰富的任务多样性。数据集不仅提供了输入与输出文本对，还包含了任务类型和语言标识，支持跨任务与跨语言的综合分析。其核心特征体现在精细的结构化标签上，每个样本均附有清晰度、忠实度、信息量和合理性四个维度的浮点数评分，这些评分相互独立又互为补充，为全面评估文本生成质量提供了量化依据。数据集规模庞大，包含超过50万训练样本，且划分了训练、验证和测试集，确保了其在模型训练与评估中的实用性与可靠性。

使用方法

OmniScore-Data主要用于训练和评估文本生成模型的质量评估系统。研究人员可将其应用于监督学习，以构建能够预测多维度评分指标的模型。具体而言，用户可加载数据集的训练分割，利用输入文本和任务信息作为特征，以四个维度的评分作为训练目标，进行回归或排序模型的训练。验证集和测试集则用于模型性能的验证与比较。此外，该数据集支持跨任务分析，用户可探究不同生成任务下各质量维度的表现差异，为改进生成模型提供实证基础。

背景与挑战

背景概述

OmniScore-Data数据集诞生于人工智能自然语言处理领域对文本生成质量评估日益增长的需求背景下。随着大语言模型在各类文本生成任务中的广泛应用，如何系统、全面地评估生成文本的质量成为关键研究问题。该数据集由相关研究团队构建，旨在通过多维度标注体系，为文本生成评估提供标准化基准。其核心研究问题聚焦于量化生成文本在清晰度、忠实度、信息丰富度及合理性等多方面的表现，从而推动自动评估指标的发展，对自然语言生成领域的模型优化与评估方法产生深远影响。

当前挑战

该数据集致力于解决文本生成质量自动评估这一复杂领域问题，其核心挑战在于如何定义并量化人类对文本质量的主观多维判断，例如将清晰性、忠实性等抽象概念转化为可计算的评分标准。在构建过程中，面临的主要挑战包括设计统一且可扩展的标注框架以覆盖多样化的生成任务与语言，确保大规模人工标注在不同维度上的一致性与可靠性，以及处理多语言、多领域数据所带来的标注成本与质量平衡问题。

常用场景

经典使用场景

在自然语言处理领域，文本生成质量评估一直是核心挑战之一。OmniScore-Data数据集通过提供大规模、多维度的人工标注数据，为训练和验证自动化评估模型提供了坚实基础。该数据集常用于训练机器学习模型，以预测生成文本在清晰度、忠实度、信息量和合理性等方面的综合得分，从而支持对文本生成系统进行端到端的性能优化与比较。

衍生相关工作

基于OmniScore-Data，学术界衍生出多项经典工作，包括开发新型评估指标如OmniScore模型，以及构建端到端的文本生成评估框架。这些工作不仅提升了评估的自动化水平，还促进了多任务学习在文本质量评估中的应用。此外，该数据集也激发了跨语言评估研究，为多语言文本生成系统的比较与优化提供了重要参考。

数据集最近研究