five

biu-nlp/Controlled-Text-Reduction-dataset

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/biu-nlp/Controlled-Text-Reduction-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含受控文本缩减的三元组——文档-摘要对,以及文档中覆盖摘要的文本片段。任务输入是带有预选片段(“高亮”)的文档,输出是覆盖所有且仅覆盖高亮内容的文本。数据集格式包括`doc_text`(输入文本)、`summary_text`(输出文本)和`highlight_spans`(输入文本中导致输出文本的片段)。数据集分为两个子集:`DUC-2001-2002`(进一步分为训练、验证和测试集)和`CNN-DM`(只有一个分割)。
提供机构:
biu-nlp
原始信息汇总

数据集概述

数据集名称

Controlled Text Reduction

数据集内容

包含文档-摘要对及其对应的文档中涵盖摘要内容的文本范围(highlight_spans)。

数据集结构

  • doc_text:输入文本。
  • summary_text:输出文本。
  • highlight_spans:输入文本中的范围,这些范围导致输出文本。

数据集示例

json {doc_text: The motion picture industrys most coveted award...with 32., summary_text: The Oscar, created 60 years ago by MGM...awarded person (32)., highlight_spans:[[0, 48], [50, 55], [57, 81], [184, 247], ..., [953, 975], [1033, 1081]]}

数据集子集

  1. DUC-2001-2002:分为训练集、验证集和测试集。
  2. CNN-DM:单一分割。

引用信息

若使用此数据集,请引用以下论文:

@misc{https://doi.org/10.48550/arxiv.2210.13449, doi = {10.48550/ARXIV.2210.13449}, url = {https://arxiv.org/abs/2210.13449}, author = {Slobodkin, Aviv and Roit, Paul and Hirsch, Eran and Ernst, Ori and Dagan, Ido}, keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences}, title = {Controlled Text Reduction}, publisher = {arXiv}, year = {2022}, copyright = {Creative Commons Zero v1.0 Universal} }

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作