five

microsoft/msr_text_compression

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/microsoft/msr_text_compression
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含句子和短段落及其对应的压缩版本。每个输入文本最多有五个压缩版本,并附有关于其意义保留和语法性的质量判断。数据集来源于Open American National Corpus (OANC1),并通过众包方式进行标注。数据集主要用于文本摘要任务,包含训练集、验证集和测试集。

该数据集包含句子和短段落及其对应的压缩版本。每个输入文本最多有五个压缩版本,并附有关于其意义保留和语法性的质量判断。数据集来源于Open American National Corpus (OANC1),并通过众包方式进行标注。数据集主要用于文本摘要任务,包含训练集、验证集和测试集。
提供机构:
microsoft
原始信息汇总

数据集概述

名称: MsrTextCompression

语言: 英语

许可证: Microsoft Research Data License Agreement

多语言性: 单语种

大小: 1K<n<10K

来源数据集: 扩展自Open American National Corpus (OANC1)

任务类别: 摘要生成

数据集结构

数据实例

  • 数量: 约6,000个源文本,包含约26,000对源文本和压缩文本。
  • 内容: 包括商业信函、新闻稿、期刊和技术文档,均来自Open American National Corpus (OANC1)。
  • 特点: 每个源文本伴随最多五个众包重写版本,每个版本都有质量评价。

数据字段

  • source_id: 文章在原始数据集中的索引。
  • source_text: 未压缩的原始文本。
  • domain: 文章来源。
  • targets:
    • compressed_text: 压缩后的文本。
    • judge_id: 提出压缩的众包工作者匿名ID。
    • num_ratings: 每个压缩版本的评分数量。
    • ratings: 评分结果,用于评估压缩文本的意义保留和语法质量。

数据分割

  • 训练集: 4,936个源文本。
  • 验证集: 448个源文本。
  • 测试集: 785个源文本。

数据集创建

注释过程

  • 压缩创建: 通过UHRS系统,进行两轮众包注释,第一轮进行文本缩短,第二轮评估压缩质量。
  • 质量评估: 3-5位评审者对每个压缩版本的语法和意义保留进行评分,评分范围从1(主要错误,不流畅)到3(流畅,保留主要意义)。

许可证信息

  • 许可证: Microsoft Research Data License Agreement

引用信息

@inproceedings{Toutanova2016ADA, title={A Dataset and Evaluation Metrics for Abstractive Compression of Sentences and Short Paragraphs}, author={Kristina Toutanova and Chris Brockett and Ke M. Tran and Saleema Amershi}, booktitle={EMNLP}, year={2016} }

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作