vgoldberg/longform_article_summarization
收藏Hugging Face2023-10-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vgoldberg/longform_article_summarization
下载链接
链接失效反馈官方服务:
资源简介:
Long-Form Article Summarization Dataset是一个专门用于微调自然语言处理模型的数据集,特别是针对摘要生成任务。该数据集包含了来自不同来源的长篇文章及其摘要,涵盖了多种主题和写作风格。数据集通过合并多个子数据集(如Billsum、Scientific Papers、Multi_news和CCDV/Pubmed-Summarization)来实现多样性和广泛性。预处理步骤包括对大数据集进行下采样,以确保各个领域的均衡表示。数据集旨在用于研究和开发摘要生成算法,并鼓励用户在引用时注明原始数据来源。
提供机构:
vgoldberg
原始信息汇总
长篇文章摘要数据集
数据集概述
名称: 长篇文章摘要数据集
描述: 该数据集精心策划,用于微调专门针对摘要任务的自然语言处理(NLP)模型。它是一个丰富的长篇文章集合,经过精心浓缩和摘要。数据集提供了多样的话题和写作风格,是从事摘要算法和应用的研究人员和实践者的宝贵资源。
数据来源
- Billsum: 该数据集包括美国国会和州议案的摘要,提供立法文件的见解。
- Scientific Papers: 涵盖各学科的科学论文集,深入研究研究导向的内容。
- Multi_news: 该数据集包含新闻文章,提供当前事件和新闻写作风格的混合。
- CCDV/Pubmed-Summarization: 专注于生物医学文献,包含来自Pubmed文章的摘要,提供与医学和生命科学领域相关的专业内容。
数据组合
长篇文章摘要数据集是上述数据集的结合体。通过结合这些多样化的来源,数据集实现了对话题、风格和领域的全面覆盖。这种融合增强了数据集在广泛领域中的多功能性和适用性,是NLP研究和开发的宝贵资产。
数据预处理
为了确保各领域的均衡代表性并管理数据集的规模,对大型数据集进行了下采样。这一细致的预处理步骤确保每个领域都得到充分代表,为NLP模型提供了一个平衡和无偏的训练环境。
预期用途
该数据集专门设计用于微调专注于摘要任务的NLP模型。研究人员和开发者可以利用该数据集来训练和评估其算法,从长篇文章中生成简洁且信息丰富的摘要。数据集的多样来源和精心预处理使其成为增强NLP模型摘要能力的理想选择。
访问
长篇文章摘要数据集可供研究使用,可通过授权渠道访问。有兴趣使用该数据集的研究人员和开发者应遵守相关来源的伦理指南和数据使用政策。
引用
研究人员和实践者应在他们的出版物和研究成果中引用该结合体中使用的原始数据集,即“Billsum”、“Scientific Papers”、“Multi_news”和“CCDV/Pubmed-Summarization”,并承认长篇文章摘要数据集的创建。
数据集信息
- 语言: 英语
- 许可证: Apache 2.0
- 大小类别: 100K<n<1M
- 任务类别: 摘要
- 配置:
- 名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
- 特征:
- 名称: text
- 数据类型: string
- 名称: summary
- 数据类型: string
- 名称: text
- 分割:
- 名称: train
- 字节数: 2243293725
- 样本数: 105256
- 名称: train
- 下载大小: 880664627
- 数据集大小: 2243293725



