microsoft/msr_text_compression
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/microsoft/msr_text_compression
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含句子和短段落及其对应的压缩版本。每个输入文本最多有五个压缩版本,并附有关于其意义保留和语法性的质量判断。数据集来源于Open American National Corpus (OANC1),并通过众包方式进行标注。数据集主要用于文本摘要任务,包含训练集、验证集和测试集。
该数据集包含句子和短段落及其对应的压缩版本。每个输入文本最多有五个压缩版本,并附有关于其意义保留和语法性的质量判断。数据集来源于Open American National Corpus (OANC1),并通过众包方式进行标注。数据集主要用于文本摘要任务,包含训练集、验证集和测试集。
提供机构:
microsoft
原始信息汇总
数据集概述
名称: MsrTextCompression
语言: 英语
许可证: Microsoft Research Data License Agreement
多语言性: 单语种
大小: 1K<n<10K
来源数据集: 扩展自Open American National Corpus (OANC1)
任务类别: 摘要生成
数据集结构
数据实例
- 数量: 约6,000个源文本,包含约26,000对源文本和压缩文本。
- 内容: 包括商业信函、新闻稿、期刊和技术文档,均来自Open American National Corpus (OANC1)。
- 特点: 每个源文本伴随最多五个众包重写版本,每个版本都有质量评价。
数据字段
- source_id: 文章在原始数据集中的索引。
- source_text: 未压缩的原始文本。
- domain: 文章来源。
- targets:
- compressed_text: 压缩后的文本。
- judge_id: 提出压缩的众包工作者匿名ID。
- num_ratings: 每个压缩版本的评分数量。
- ratings: 评分结果,用于评估压缩文本的意义保留和语法质量。
数据分割
- 训练集: 4,936个源文本。
- 验证集: 448个源文本。
- 测试集: 785个源文本。
数据集创建
注释过程
- 压缩创建: 通过UHRS系统,进行两轮众包注释,第一轮进行文本缩短,第二轮评估压缩质量。
- 质量评估: 3-5位评审者对每个压缩版本的语法和意义保留进行评分,评分范围从1(主要错误,不流畅)到3(流畅,保留主要意义)。
许可证信息
- 许可证: Microsoft Research Data License Agreement
引用信息
@inproceedings{Toutanova2016ADA, title={A Dataset and Evaluation Metrics for Abstractive Compression of Sentences and Short Paragraphs}, author={Kristina Toutanova and Chris Brockett and Ke M. Tran and Saleema Amershi}, booktitle={EMNLP}, year={2016} }
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



