NEWSFARM|新闻摘要数据集|中文语料库数据集

github2022-12-22 更新2024-05-31 收录

新闻摘要

中文语料库

下载链接：

https://github.com/B00kn/NEWSFARM

下载链接

链接失效反馈

资源简介：

NEWSFARM是一个大型中文长新闻摘要语料库，包含超过22万篇中文长新闻及其由专业编辑或作者撰写的摘要。该数据集解决了现有摘要数据集在数量、语言平衡、数据量和数据清洗方面的不足。

NEWSFARM is a large-scale Chinese long-news summarization corpus, encompassing over 220,000 Chinese long-news articles along with summaries written by professional editors or authors. This dataset addresses the shortcomings of existing summarization datasets in terms of quantity, language balance, data volume, and data cleaning.

创建时间：

2022-03-29

原始信息汇总

数据集概述

数据集名称

NEWSFARM

数据集描述

NEWSFARM 是一个大规模的中文长新闻摘要语料库，包含超过220,000篇中文长新闻及其由专业编辑或作者撰写的摘要。

数据集特点

数据量：包含224,480篇文档。
数据划分：分为训练集（185,125篇）、验证集（18,123篇）和测试集（21,232篇）。
文档平均长度：2,228.22个中文字符，摘要平均长度为198.42个中文字符。
压缩比：0.91（字/句）。

数据集比较

与其他数据集的比较：
- 与LCSTS和CNN/DM相比，NEWSFARM在文档数量和平均长度上均显示出优势。
- 在ROUGE(F1)评分上，NEWSFARM的多个模型表现优于CNN/DM。

数据集下载

下载链接：数据集下载
密码：iie1

引用信息

引用格式：

@inproceedings{DBLP:conf/icpr/ZangZLCZL22, author = {Shunan Zang and Chuang Zhang and Xiaojun Liu and Xiaojun Chen and Peng Zhang and Jie Liu}, title = {{NEWSFARM:} {A} Large-Scale Chinese Corpus of Long News Summarization}, booktitle = {26th International Conference on Pattern Recognition, {ICPR} 2022, Montreal, QC, Canada, August 21-25, 2022}, pages = {2260--2272}, publisher = {{IEEE}}, year = {2022}, url = {https://doi.org/10.1109/ICPR56361.2022.9956691}, doi = {10.1109/ICPR56361.2022.9956691}, }

AI搜集汇总

数据集介绍

构建方式

NEWSFARM数据集的构建过程体现了对现有文本摘要数据集不足之处的深刻反思与改进。该数据集通过收集超过22万条中文长新闻及其由专业编辑或作者撰写的摘要，确保了数据的丰富性和专业性。在数据清洗方面，采用了更为精细的分类和复杂的算法，有效提升了数据质量，为中文长新闻摘要领域的研究提供了坚实的基础。

特点

NEWSFARM数据集以其大规模和高品质著称，涵盖了224,480条文档，分为训练集、验证集和测试集，确保了研究的广泛适用性。该数据集的平均文档长度和摘要长度分别为2,228.22和198.42个字符，压缩比为0.91/0.92，显示出其摘要的紧凑性和信息密度。此外，与LCSTS和CNN/DM等数据集相比，NEWSFARM在文档数量和摘要质量上均表现出显著优势，为中文文本摘要研究提供了宝贵的资源。

使用方法

使用NEWSFARM数据集时，研究者可通过提供的百度网盘链接下载训练集、验证集和测试集。下载后，用户可根据研究需求选择相应的模型进行实验，如TextRank、BertSumExt、Seq2seq-att等。数据集的使用需遵循引用规范，确保学术研究的透明性和可追溯性。通过这一数据集，研究者能够深入探索中文长新闻摘要的生成机制，推动自然语言处理技术的发展。

背景与挑战

背景概述

NEWSFARM数据集是一个大规模的中文长新闻摘要语料库，由Shunan Zang等人于2022年提出，并在第26届国际模式识别会议（ICPR 2022）上发布。该数据集旨在解决当前文本摘要领域存在的几个关键问题，包括数据集数量不足、语言发展不平衡、数据量不足以及数据清洗算法过于简单等。NEWSFARM包含了超过22万条中文长新闻及其由专业编辑或作者撰写的摘要，显著提升了中文新闻摘要研究的资源丰富度。该数据集的发布为中文自然语言处理领域的研究提供了重要的数据支持，推动了长文本摘要技术的发展。

当前挑战

NEWSFARM数据集在构建过程中面临了多方面的挑战。首先，中文长新闻摘要的生成需要处理大量的文本数据，如何确保数据的多样性和代表性是一个关键问题。其次，数据清洗过程中，如何有效识别和处理脏数据，避免其对模型训练产生负面影响，是另一个重要挑战。此外，中文语言的复杂性和多样性使得摘要生成模型的训练和评估更加困难，尤其是在保持摘要的准确性和流畅性方面。最后，尽管NEWSFARM在数据规模上取得了显著进展，但与英文数据集相比，中文摘要数据集的开发和优化仍存在一定的滞后，如何进一步提升数据质量和模型性能，仍是未来研究的重点。

常用场景

经典使用场景

NEWSFARM数据集在自然语言处理领域，尤其是中文长新闻摘要生成任务中，展现了其独特的价值。该数据集包含了超过22万条由专业编辑或作者撰写的中文长新闻及其摘要，为研究人员提供了一个丰富的资源库，用于训练和评估各种摘要生成模型。通过对比其他数据集，NEWSFARM在文档数量和摘要质量上均表现出色，成为该领域研究的基石。

实际应用

在实际应用中，NEWSFARM数据集被广泛用于新闻摘要生成系统的开发与优化。新闻机构可以利用该数据集训练自动化摘要生成工具，提高新闻内容的传播效率。此外，该数据集还可用于教育领域，帮助学生和研究人员更好地理解和掌握摘要生成技术。通过NEWSFARM，企业能够开发出更智能的新闻推荐系统，提升用户体验。

衍生相关工作

NEWSFARM数据集的发布催生了一系列相关研究工作。基于该数据集，研究人员开发了多种先进的摘要生成模型，如基于Transformer的模型和BERT-based模型，这些模型在ROUGE评分上均取得了显著提升。此外，NEWSFARM还激发了跨语言摘要生成的研究，推动了多语言摘要生成技术的发展。这些衍生工作不仅丰富了摘要生成领域的研究内容，也为未来的技术突破奠定了基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

UAVDT

UAVDT数据集由中国科学院大学等机构创建，包含约80,000帧从10小时无人机拍摄视频中精选的图像，覆盖多种复杂城市环境。数据集主要关注车辆目标，每帧均标注了边界框及多达14种属性，如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究，解决高密度、小目标、相机运动等挑战，适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录

GHCN

GHCN（Global Historical Climatology Network）是一个全球历史气候网络数据集，包含了全球各地气象站记录的每日气象数据，如温度、降水、风速等。该数据集用于研究气候变化和天气模式。

www.ncei.noaa.gov 收录

中国地质调查局: 全国1∶200 000区域水文地质图空间数据库

全国1∶200 000区域水文地质图空间数据库以建国后在全国范围内(本次未在香港特别行政区、澳门特别行政区和台湾省开展工作) 30个省开展的1∶200 000区域水文地质普查工作所取得的区域水文地质普查报告、综合水文地质图等地质资料为数据源，在制定的“1∶200 000区域水文地质图空间数据库图层及属性文件格式标准”的基础上，建成了一个全国性的、大型的区域水文地质学空间数据库。该数据库总共采集、处理了全国范围内1∶200 000图幅的<number>1 017</number>幅全要素综合水文地质图信息，全部数据量约50 GB。数据库涵盖了以1∶200 000国际标准图幅为管理单位的水文地质要素空间数据图层，内容包括：地理要素(交通层、水系层、行政区划层等)，基础地质要素(地层分区层、断裂构造层)，水文地质要素(地下水类型层、地下水富水性层、地下水迳流模数层，地下水水质层、水文地质特征层、地下水利用规划层)，专题要素(综合水文地质柱状图，水文地质剖面图) 四大类近30个要素图层。空间数据库主要采用MapGIS地理信息系统格式存储，形成了目前国内覆盖范围最广、包含信息最完整的区域水文地质图空间数据库成果，是地质领域全国性最重要的基础信息资源之一。

DataCite Commons 收录

ShapeNet

ShapeNet 是由斯坦福大学、普林斯顿大学和美国芝加哥丰田技术研究所的研究人员开发的大型 3D CAD 模型存储库。该存储库包含超过 3 亿个模型，其中 220,000 个模型被分类为使用 WordNet 上位词-下位词关系排列的 3,135 个类。 ShapeNet Parts 子集包含 31,693 个网格，分为 16 个常见对象类（即桌子、椅子、平面等）。每个形状基本事实包含 2-5 个部分（总共 50 个部分类）。

OpenDataLab 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录