Curation Corpus
收藏github2024-04-08 更新2024-05-31 收录
下载链接:
https://github.com/CurationCorp/curation-corpus
下载链接
链接失效反馈官方服务:
资源简介:
Curation Corpus是一个包含40,000个专业撰写的新闻文章摘要的数据集,提供文章链接。该数据集用于抽象文本摘要,支持商业使用和更广泛的数据集访问,包括超过150,000个专业撰写的摘要和一个可扩展的内容抽象API。
The Curation Corpus is a dataset comprising 40,000 professionally written news article summaries, complete with links to the original articles. This dataset is utilized for abstractive text summarization and supports commercial use as well as broader dataset access, including over 150,000 professionally written summaries and a scalable content abstraction API.
创建时间:
2020-02-05
原始信息汇总
数据集概述
数据集名称
- Curation Corpus for Abstractive Text Summarisation
数据集内容
- 包含40,000篇专业撰写的新闻文章摘要,附有文章链接。
- 提供一个网络爬虫工具以访问这些文章。
数据集规模
- Curation Base: 40,000篇
- Curation Large: 约150,000篇
数据集特征
- Curation Base:
- 平均摘要长度: 82.6字
- 平均文章长度: 527.9字
- 平均摘要句子数: 4.9句
- 平均文章句子数: 27.4句
- Curation Large:
- 平均摘要长度: 81.3字
- 平均文章长度: 521字
- 平均摘要句子数: 4.9句
- 平均文章句子数: 27句
数据集用途
- 用于抽象文本摘要的研究和开发。
数据集许可
- Curation Base: CC-BY许可
- Curation Large: 商业许可
数据集下载与使用
- 通过克隆仓库并使用提供的脚本下载数据集。
- 网络爬虫可能因内容变更、付费墙等因素返回混乱结果,已尝试从发布中移除最严重的违规者。
数据集教程
- 提供教程和示例,鼓励用户分享自己的研究和教程。
数据集引用
@misc{curationcorpusbase:2020, title={Curation Corpus Base}, author={Curation}, year={2020} }
搜集汇总
数据集介绍

构建方式
Curation Corpus数据集的构建基于40,000篇新闻文章的专业摘要,这些摘要由专业人员撰写并编辑,确保其独立性和可理解性。数据集不仅包含摘要,还提供了与摘要对应的原始文章链接,用户可以通过提供的网络爬虫工具获取完整的文章内容。此外,数据集还提供了文章的标题、摘要、URL和日期等信息,确保数据的完整性和可用性。
特点
Curation Corpus数据集的显著特点在于其高质量的专业摘要,平均摘要长度为82.6个单词,远超其他类似数据集。这些摘要不仅独立成文,且经过精心编辑,旨在为用户提供清晰、简洁的内容概览。此外,数据集还提供了商业用途的扩展版本,包含约150,000篇摘要,进一步满足不同用户的需求。
使用方法
使用Curation Corpus数据集时,用户首先需要克隆GitHub仓库并下载包含文章标题、摘要、URL和日期的CSV文件。随后,用户可以通过运行提供的Python脚本,使用网络爬虫工具获取完整的文章内容。数据集的示例文件夹中还提供了相关教程,帮助用户更好地理解和使用该数据集。
背景与挑战
背景概述
Curation Corpus,一个由40,000篇专业编写的新闻文章摘要组成的数据集,旨在推动抽象文本摘要技术的发展。该数据集由Curation公司发布,其核心研究问题聚焦于如何通过高质量的摘要数据提升自然语言处理(NLP)领域中的自动摘要生成能力。Curation公司作为一家结合机器学习与人类智能的SaaS企业,致力于通过提供高效的内容摘要服务,帮助企业快速识别新兴风险与主题。Curation Corpus的发布不仅为NLP研究者提供了丰富的资源,还展示了专业编辑与AI协同工作的潜力,对文本摘要领域的研究具有深远影响。
当前挑战
Curation Corpus在构建过程中面临了多重挑战。首先,数据集的构建需要从海量新闻文章中筛选并生成高质量的摘要,这一过程不仅要求对文本内容的深刻理解,还需确保摘要的准确性与可读性。其次,随着时间的推移,原始文章的内容可能会发生变化,如出现付费墙或内容更新,这增加了数据抓取与处理的复杂性。此外,如何平衡摘要的长度与信息量,使其既能传达核心信息又不失简洁,也是该数据集面临的一大挑战。最后,尽管Curation公司已尽力清理数据,但仍存在改进抓取工具以应对动态内容变化的空间。
常用场景
经典使用场景
Curation Corpus数据集在自然语言处理领域中,主要用于抽象文本摘要任务。其经典使用场景包括训练和评估抽象摘要生成模型,这些模型能够从长篇新闻文章中提取关键信息并生成简洁、连贯的摘要。通过使用该数据集,研究人员可以探索如何使模型更好地理解文章内容,并生成高质量的摘要,从而提升自动摘要技术的准确性和实用性。
实际应用
在实际应用中,Curation Corpus数据集被广泛用于新闻媒体、内容聚合平台和企业内部信息管理系统。例如,新闻机构可以利用该数据集训练的模型自动生成新闻摘要,提升内容分发的效率;内容聚合平台则可以通过自动摘要技术为用户提供更简洁的信息浏览体验;企业内部则可以利用该技术快速筛选和总结大量文档,提高决策效率。
衍生相关工作
Curation Corpus数据集的发布激发了大量相关研究工作,特别是在抽象文本摘要生成领域。许多研究者基于该数据集开发了新的摘要生成模型,探索了不同的文本表示方法和生成策略。此外,该数据集还被用于评估和比较不同摘要生成模型的性能,推动了该领域的技术进步。相关工作包括但不限于改进的序列到序列模型、基于预训练语言模型的摘要生成方法等。
以上内容由遇见数据集搜集并总结生成



