Salesforce/rose
收藏Hugging Face2025-01-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Salesforce/rose
下载链接
链接失效反馈官方服务:
资源简介:
RoSE基准测试包含了基于ACU协议的系统输出注释,涵盖了CNNDM、XSum和SamSum数据集的测试集和验证集。此外,还使用了四种不同的人类评估协议(Prior、Ref-free、Ref-based和ACU)对系统输出进行注释。数据集统计信息包括文档数量、系统数量和总结数量等。
The RoSE Benchmark contains annotations of system outputs based on the ACU protocol, covering the test and validation splits of the CNNDM, XSum, and SamSum datasets. Furthermore, four distinct human evaluation protocols (Prior, Ref-free, Ref-based, and ACU) were employed to annotate system outputs. Dataset statistics include the number of documents, number of systems, number of summaries, and other relevant metrics.
提供机构:
Salesforce
原始信息汇总
ROSE 数据集概述
ACU 标注
RoSE 基准包含使用 ACU 协议标注的系统输出。数据集分为四个部分:
- CNNDM 测试集标注
- CNNDM 验证集标注
- XSum 测试集标注
- SamSum 测试集标注
以下是各部分的统计信息:
| 数据集 | 分割 | 文档数 | 系统数 | 总摘要数 | HF 名称 |
|---|---|---|---|---|---|
| CNNDM | 测试 | 500 | 12 | 6000 | cnndm_test |
| CNNDM | 验证 | 1000 | 8 | 8000 | cnndm_validation |
| XSum | 测试 | 500 | 8 | 4000 | xsum |
| SamSum | 测试 | 500 | 8 | 4000 | samsum |
不同评估协议的人工标注
系统输出使用了四种不同的人类评估协议进行标注。以下是各协议的概述:
| 协议 | 包含输入文档 | 包含参考摘要 | 细粒度 |
|---|---|---|---|
| Prior | ✗ | ✗ | ✗ |
| Ref-free | ✓ | ✗ | ✗ |
| Ref-based | ✗ | ✓ | ✗ |
| ACU | ✗ | ✓ | ✓ |
标注了两组系统摘要:
- 12 个微调系统的摘要。Huggingface 数据分割名称为
cnndm_protocol。 - 大型语言模型(GPT3, T0)的零样本摘要,以及 BRIO 和 BART 的摘要。Huggingface 数据分割名称为
cnndm_protocol_gpt3。
搜集汇总
数据集介绍

构建方式
在文本摘要评估领域,ROSE数据集通过严谨的人工标注流程构建而成。该数据集整合了来自CNN/Daily Mail、XSum和SamSum三个知名摘要生成数据集的系统输出,并采用创新的ACU评估协议进行标注。标注过程涉及多个摘要系统生成的文本,由人工评估员依据细粒度标准对摘要质量进行评判,确保了评估结果的可靠性与一致性。数据集划分明确,涵盖了测试集与验证集,为模型评估提供了全面且结构化的基准。
使用方法
研究者可通过HuggingFace平台直接加载ROSE数据集的不同子集,如`cnndm_test`或`xsum`,以进行摘要系统的性能评估与比较。该数据集主要用于验证和比较不同摘要生成模型或评估指标的有效性。用户可依据标注的ACU分数或其他协议结果,定量分析系统在事实一致性、连贯性等维度的表现,进而推动摘要评估方法的创新与优化。
背景与挑战
背景概述
在自然语言处理领域,文本摘要评估长期依赖自动化指标,这些指标与人类判断的一致性常受质疑。ROSE数据集由Salesforce研究团队于2023年创建,旨在重新审视摘要评估的黄金标准,通过稳健的人工评估协议来夯实评估基础。该数据集聚焦于CNN/Daily Mail、XSum和SamSum等主流摘要数据集,汇集了多系统输出的人工标注,核心研究问题在于探索如何构建更可靠、细粒度的人类评估框架,以推动摘要生成模型的质量衡量向更高信度与效度演进。
当前挑战
ROSE数据集致力于应对文本摘要评估中人类与自动化指标间一致性不足的挑战,其ACU协议通过引入参考摘要和细粒度评分,旨在提升评估的鲁棒性与可解释性。在构建过程中,研究团队需协调不同评估协议——包括先验式、无参考式、基于参考式及ACU协议——的设计与实施,确保标注标准的一致性与可扩展性;同时,整合多样化的摘要系统输出,如微调模型与大型语言模型的零样本生成结果,也增加了数据复杂性与标注难度。
常用场景
经典使用场景
在自然语言处理领域,文本摘要评估一直是核心挑战之一,ROSE数据集通过引入ACU协议,为摘要质量评估提供了新的基准。该数据集整合了CNN/Daily Mail、XSum和SamSum等多个经典摘要数据集,覆盖了新闻和对话摘要场景,使得研究者能够系统性地比较不同摘要系统在一致性、连贯性和信息完整性等方面的表现。其多协议标注设计,包括基于参考摘要和无参考摘要的评估,为全面分析摘要模型的优劣奠定了坚实基础。
解决学术问题
ROSE数据集主要解决了文本摘要评估中人类评价标准不一致的学术难题。传统评估方法往往依赖单一指标或粗糙的人工评分,难以捕捉摘要的细微质量差异。通过引入细粒度的ACU协议,该数据集将摘要评估分解为多个维度,如事实准确性和内容覆盖度,从而提供了更可靠、可复现的评估框架。这不仅推动了摘要评估方法的标准化,还为开发更稳健的自动评估指标提供了关键数据支持,促进了该领域研究的深化。
实际应用
在实际应用中,ROSE数据集被广泛用于优化和部署自动摘要系统。例如,在新闻聚合平台或智能助手开发中,开发者可以利用该数据集的标注结果来校准摘要生成模型,确保输出内容既简洁又准确。其多协议评估数据还能帮助企业在不同场景下选择最合适的摘要策略,如对话摘要中的连贯性提升或新闻摘要中的关键信息保留。这显著提高了摘要系统在真实世界任务中的实用性和可靠性。
数据集最近研究
最新研究方向
在文本摘要评估领域,ROSE数据集通过引入ACU协议重新定义了人类评估的黄金标准,其前沿研究聚焦于提升摘要评估的鲁棒性与细粒度分析。该数据集整合了CNN/Daily Mail、XSum和SamSum等多个经典摘要数据集,并对比了不同评估协议(如无参考、基于参考和ACU协议)的效果,推动了基于大型语言模型的零样本摘要评估研究。相关热点事件包括利用GPT-3等模型进行零样本摘要生成与评估的探索,这为自动化摘要系统的公平性、安全性及伦理考量提供了实证基础,对自然语言处理中评估方法的标准化与优化具有深远意义。
以上内容由遇见数据集搜集并总结生成



