Harvard/gigaword
收藏Hugging Face2024-01-29 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/Harvard/gigaword
下载链接
链接失效反馈官方服务:
资源简介:
Gigaword数据集主要用于摘要生成任务,特别是标题生成。数据集包含约400万篇文章对,每对包括文档和摘要。数据集的语言为英语,大小为100K到1M之间,属于单语言数据集。数据集的结构包括训练集、验证集和测试集,分别包含3803957、189651和1951个样本。数据集的创建基于Gigaword语料库,并经过预处理和过滤。数据集的性能评估使用ROUGE指标。
Gigaword数据集主要用于摘要生成任务,特别是标题生成。数据集包含约400万篇文章对,每对包括文档和摘要。数据集的语言为英语,大小为100K到1M之间,属于单语言数据集。数据集的结构包括训练集、验证集和测试集,分别包含3803957、189651和1951个样本。数据集的创建基于Gigaword语料库,并经过预处理和过滤。数据集的性能评估使用ROUGE指标。
提供机构:
Harvard
原始信息汇总
数据集概述
数据集名称
- 名称: Gigaword
数据集属性
- 语言: 英语
- 许可证: MIT
- 多语言性: 单语种
- 大小类别: 100K<n<1M
- 来源数据集: 扩展自gigaword_2003
- 任务类别: 摘要生成
- 标签: headline-generation
数据集结构
- 特征:
document: 字符串类型summary: 字符串类型
- 数据分割:
train: 3803957个样本validation: 189651个样本test: 1951个样本
数据集创建
- 源数据: 使用标注的Gigaword数据集,经过Stanford CoreNLP工具预处理
- 注释: 继承自标注的Gigaword数据集,主要用于分词和句子分割
使用考虑
-
任务: 摘要生成
-
评估指标: ROUGE
-
引用信息: bibtex @article{graff2003english, title={English gigaword}, author={Graff, David and Kong, Junbo and Chen, Ke and Maeda, Kazuaki}, journal={Linguistic Data Consortium, Philadelphia}, volume={4}, number={1}, pages={34}, year={2003} }
@article{Rush_2015, title={A Neural Attention Model for Abstractive Sentence Summarization}, url={http://dx.doi.org/10.18653/v1/D15-1044}, DOI={10.18653/v1/d15-1044}, journal={Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing}, publisher={Association for Computational Linguistics}, author={Rush, Alexander M. and Chopra, Sumit and Weston, Jason}, year={2015} }
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



