NEWSFARM
收藏github2022-12-22 更新2024-05-31 收录
下载链接:
https://github.com/B00kn/NEWSFARM
下载链接
链接失效反馈官方服务:
资源简介:
NEWSFARM是一个大型中文长新闻摘要语料库,包含超过22万篇中文长新闻及其由专业编辑或作者撰写的摘要。该数据集解决了现有摘要数据集在数量、语言平衡、数据量和数据清洗方面的不足。
NEWSFARM is a large-scale Chinese long-news summarization corpus, encompassing over 220,000 Chinese long-news articles along with summaries written by professional editors or authors. This dataset addresses the shortcomings of existing summarization datasets in terms of quantity, language balance, data volume, and data cleaning.
创建时间:
2022-03-29
原始信息汇总
数据集概述
数据集名称
- NEWSFARM
数据集描述
- NEWSFARM 是一个大规模的中文长新闻摘要语料库,包含超过220,000篇中文长新闻及其由专业编辑或作者撰写的摘要。
数据集特点
- 数据量:包含224,480篇文档。
- 数据划分:分为训练集(185,125篇)、验证集(18,123篇)和测试集(21,232篇)。
- 文档平均长度:2,228.22个中文字符,摘要平均长度为198.42个中文字符。
- 压缩比:0.91(字/句)。
数据集比较
- 与其他数据集的比较:
- 与LCSTS和CNN/DM相比,NEWSFARM在文档数量和平均长度上均显示出优势。
- 在ROUGE(F1)评分上,NEWSFARM的多个模型表现优于CNN/DM。
数据集下载
- 下载链接:数据集下载
- 密码:iie1
引用信息
-
引用格式:
@inproceedings{DBLP:conf/icpr/ZangZLCZL22, author = {Shunan Zang and Chuang Zhang and Xiaojun Liu and Xiaojun Chen and Peng Zhang and Jie Liu}, title = {{NEWSFARM:} {A} Large-Scale Chinese Corpus of Long News Summarization}, booktitle = {26th International Conference on Pattern Recognition, {ICPR} 2022, Montreal, QC, Canada, August 21-25, 2022}, pages = {2260--2272}, publisher = {{IEEE}}, year = {2022}, url = {https://doi.org/10.1109/ICPR56361.2022.9956691}, doi = {10.1109/ICPR56361.2022.9956691}, }
搜集汇总
数据集介绍

构建方式
NEWSFARM数据集的构建过程体现了对现有文本摘要数据集不足之处的深刻反思与改进。该数据集通过收集超过22万条中文长新闻及其由专业编辑或作者撰写的摘要,确保了数据的丰富性和专业性。在数据清洗方面,采用了更为精细的分类和复杂的算法,有效提升了数据质量,为中文长新闻摘要领域的研究提供了坚实的基础。
特点
NEWSFARM数据集以其大规模和高品质著称,涵盖了224,480条文档,分为训练集、验证集和测试集,确保了研究的广泛适用性。该数据集的平均文档长度和摘要长度分别为2,228.22和198.42个字符,压缩比为0.91/0.92,显示出其摘要的紧凑性和信息密度。此外,与LCSTS和CNN/DM等数据集相比,NEWSFARM在文档数量和摘要质量上均表现出显著优势,为中文文本摘要研究提供了宝贵的资源。
使用方法
使用NEWSFARM数据集时,研究者可通过提供的百度网盘链接下载训练集、验证集和测试集。下载后,用户可根据研究需求选择相应的模型进行实验,如TextRank、BertSumExt、Seq2seq-att等。数据集的使用需遵循引用规范,确保学术研究的透明性和可追溯性。通过这一数据集,研究者能够深入探索中文长新闻摘要的生成机制,推动自然语言处理技术的发展。
背景与挑战
背景概述
NEWSFARM数据集是一个大规模的中文长新闻摘要语料库,由Shunan Zang等人于2022年提出,并在第26届国际模式识别会议(ICPR 2022)上发布。该数据集旨在解决当前文本摘要领域存在的几个关键问题,包括数据集数量不足、语言发展不平衡、数据量不足以及数据清洗算法过于简单等。NEWSFARM包含了超过22万条中文长新闻及其由专业编辑或作者撰写的摘要,显著提升了中文新闻摘要研究的资源丰富度。该数据集的发布为中文自然语言处理领域的研究提供了重要的数据支持,推动了长文本摘要技术的发展。
当前挑战
NEWSFARM数据集在构建过程中面临了多方面的挑战。首先,中文长新闻摘要的生成需要处理大量的文本数据,如何确保数据的多样性和代表性是一个关键问题。其次,数据清洗过程中,如何有效识别和处理脏数据,避免其对模型训练产生负面影响,是另一个重要挑战。此外,中文语言的复杂性和多样性使得摘要生成模型的训练和评估更加困难,尤其是在保持摘要的准确性和流畅性方面。最后,尽管NEWSFARM在数据规模上取得了显著进展,但与英文数据集相比,中文摘要数据集的开发和优化仍存在一定的滞后,如何进一步提升数据质量和模型性能,仍是未来研究的重点。
常用场景
经典使用场景
NEWSFARM数据集在自然语言处理领域,尤其是中文长新闻摘要生成任务中,展现了其独特的价值。该数据集包含了超过22万条由专业编辑或作者撰写的中文长新闻及其摘要,为研究人员提供了一个丰富的资源库,用于训练和评估各种摘要生成模型。通过对比其他数据集,NEWSFARM在文档数量和摘要质量上均表现出色,成为该领域研究的基石。
实际应用
在实际应用中,NEWSFARM数据集被广泛用于新闻摘要生成系统的开发与优化。新闻机构可以利用该数据集训练自动化摘要生成工具,提高新闻内容的传播效率。此外,该数据集还可用于教育领域,帮助学生和研究人员更好地理解和掌握摘要生成技术。通过NEWSFARM,企业能够开发出更智能的新闻推荐系统,提升用户体验。
衍生相关工作
NEWSFARM数据集的发布催生了一系列相关研究工作。基于该数据集,研究人员开发了多种先进的摘要生成模型,如基于Transformer的模型和BERT-based模型,这些模型在ROUGE评分上均取得了显著提升。此外,NEWSFARM还激发了跨语言摘要生成的研究,推动了多语言摘要生成技术的发展。这些衍生工作不仅丰富了摘要生成领域的研究内容,也为未来的技术突破奠定了基础。
以上内容由遇见数据集搜集并总结生成



