Harvard/gigaword

Name: Harvard/gigaword
Creator: Harvard
Published: 2024-01-29 10:43:00
License: 暂无描述

Hugging Face2024-01-29 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/Harvard/gigaword

下载链接

链接失效反馈

官方服务：

资源简介：

Gigaword数据集主要用于摘要生成任务，特别是标题生成。数据集包含约400万篇文章对，每对包括文档和摘要。数据集的语言为英语，大小为100K到1M之间，属于单语言数据集。数据集的结构包括训练集、验证集和测试集，分别包含3803957、189651和1951个样本。数据集的创建基于Gigaword语料库，并经过预处理和过滤。数据集的性能评估使用ROUGE指标。

提供机构：

Harvard

原始信息汇总

数据集概述

数据集名称

名称: Gigaword

数据集属性

语言: 英语
许可证: MIT
多语言性: 单语种
大小类别: 100K<n<1M
来源数据集: 扩展自gigaword_2003
任务类别: 摘要生成
标签: headline-generation

数据集结构

特征:
- document: 字符串类型
- summary: 字符串类型
数据分割:
- train: 3803957个样本
- validation: 189651个样本
- test: 1951个样本

数据集创建

源数据: 使用标注的Gigaword数据集，经过Stanford CoreNLP工具预处理
注释: 继承自标注的Gigaword数据集，主要用于分词和句子分割

使用考虑

任务: 摘要生成
评估指标: ROUGE
引用信息: bibtex @article{graff2003english, title={English gigaword}, author={Graff, David and Kong, Junbo and Chen, Ke and Maeda, Kazuaki}, journal={Linguistic Data Consortium, Philadelphia}, volume={4}, number={1}, pages={34}, year={2003} }

@article{Rush_2015, title={A Neural Attention Model for Abstractive Sentence Summarization}, url={http://dx.doi.org/10.18653/v1/D15-1044}, DOI={10.18653/v1/d15-1044}, journal={Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing}, publisher={Association for Computational Linguistics}, author={Rush, Alexander M. and Chopra, Sumit and Weston, Jason}, year={2015} }

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集