microsoft/msr_text_compression

Name: microsoft/msr_text_compression
Creator: microsoft
Published: 2024-01-18 11:09:30
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/microsoft/msr_text_compression

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含句子和短段落及其对应的压缩版本。每个输入文本最多有五个压缩版本，并附有关于其意义保留和语法性的质量判断。数据集来源于Open American National Corpus (OANC1)，并通过众包方式进行标注。数据集主要用于文本摘要任务，包含训练集、验证集和测试集。

提供机构：

microsoft

原始信息汇总

数据集概述

名称: MsrTextCompression

语言: 英语

许可证: Microsoft Research Data License Agreement

多语言性: 单语种

大小: 1K<n<10K

来源数据集: 扩展自Open American National Corpus (OANC1)

任务类别: 摘要生成

数据集结构

数据实例

数量: 约6,000个源文本，包含约26,000对源文本和压缩文本。
内容: 包括商业信函、新闻稿、期刊和技术文档，均来自Open American National Corpus (OANC1)。
特点: 每个源文本伴随最多五个众包重写版本，每个版本都有质量评价。

数据字段

source_id: 文章在原始数据集中的索引。
source_text: 未压缩的原始文本。
domain: 文章来源。
targets:
- compressed_text: 压缩后的文本。
- judge_id: 提出压缩的众包工作者匿名ID。
- num_ratings: 每个压缩版本的评分数量。
- ratings: 评分结果，用于评估压缩文本的意义保留和语法质量。

数据分割

训练集: 4,936个源文本。
验证集: 448个源文本。
测试集: 785个源文本。

数据集创建

注释过程

压缩创建: 通过UHRS系统，进行两轮众包注释，第一轮进行文本缩短，第二轮评估压缩质量。
质量评估: 3-5位评审者对每个压缩版本的语法和意义保留进行评分，评分范围从1（主要错误，不流畅）到3（流畅，保留主要意义）。

许可证信息

许可证: Microsoft Research Data License Agreement

引用信息

@inproceedings{Toutanova2016ADA, title={A Dataset and Evaluation Metrics for Abstractive Compression of Sentences and Short Paragraphs}, author={Kristina Toutanova and Chris Brockett and Ke M. Tran and Saleema Amershi}, booktitle={EMNLP}, year={2016} }

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集