five

Harvard/gigaword

收藏
Hugging Face2024-01-29 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/Harvard/gigaword
下载链接
链接失效反馈
官方服务:
资源简介:
Gigaword数据集主要用于摘要生成任务,特别是标题生成。数据集包含约400万篇文章对,每对包括文档和摘要。数据集的语言为英语,大小为100K到1M之间,属于单语言数据集。数据集的结构包括训练集、验证集和测试集,分别包含3803957、189651和1951个样本。数据集的创建基于Gigaword语料库,并经过预处理和过滤。数据集的性能评估使用ROUGE指标。

Gigaword数据集主要用于摘要生成任务,特别是标题生成。数据集包含约400万篇文章对,每对包括文档和摘要。数据集的语言为英语,大小为100K到1M之间,属于单语言数据集。数据集的结构包括训练集、验证集和测试集,分别包含3803957、189651和1951个样本。数据集的创建基于Gigaword语料库,并经过预处理和过滤。数据集的性能评估使用ROUGE指标。
提供机构:
Harvard
原始信息汇总

数据集概述

数据集名称

  • 名称: Gigaword

数据集属性

  • 语言: 英语
  • 许可证: MIT
  • 多语言性: 单语种
  • 大小类别: 100K<n<1M
  • 来源数据集: 扩展自gigaword_2003
  • 任务类别: 摘要生成
  • 标签: headline-generation

数据集结构

  • 特征:
    • document: 字符串类型
    • summary: 字符串类型
  • 数据分割:
    • train: 3803957个样本
    • validation: 189651个样本
    • test: 1951个样本

数据集创建

  • 源数据: 使用标注的Gigaword数据集,经过Stanford CoreNLP工具预处理
  • 注释: 继承自标注的Gigaword数据集,主要用于分词和句子分割

使用考虑

  • 任务: 摘要生成

  • 评估指标: ROUGE

  • 引用信息: bibtex @article{graff2003english, title={English gigaword}, author={Graff, David and Kong, Junbo and Chen, Ke and Maeda, Kazuaki}, journal={Linguistic Data Consortium, Philadelphia}, volume={4}, number={1}, pages={34}, year={2003} }

    @article{Rush_2015, title={A Neural Attention Model for Abstractive Sentence Summarization}, url={http://dx.doi.org/10.18653/v1/D15-1044}, DOI={10.18653/v1/d15-1044}, journal={Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing}, publisher={Association for Computational Linguistics}, author={Rush, Alexander M. and Chopra, Sumit and Weston, Jason}, year={2015} }

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作