CNN/Daily Mail|新闻文本数据集|文本摘要数据集

github2019-04-16 更新2024-05-31 收录

新闻文本

文本摘要

下载链接：

https://github.com/mastercaojie/CNN-Daily-Mail-datasets-processing

下载链接

链接失效反馈

资源简介：

用于文本摘要的数据集，原始数据来自CNN/Daily Mail。

A dataset for text summarization, with the original data sourced from CNN/Daily Mail.

创建时间：

2019-04-16

原始信息汇总

数据集概述

数据集名称

CNN/Daily Mail

数据集用途

用于文本摘要任务。

数据集来源

原始数据集下载链接：https://cs.nyu.edu/~kcho/DMQA/

数据处理命令

使用Python脚本进行数据处理，命令如下：

python -i input_data make_data.py /path/to/cnn/stories -o output_data /path/to/dataset

此命令用于从指定的CNN故事路径生成数据集输出。

AI搜集汇总

数据集介绍

构建方式

在文本摘要领域，Daily Mail数据集的构建采取了对原始CNN/Daily Mail数据集进行预处理的方式。该数据集的构建首先涉及从指定URL下载原始数据，然后利用Python脚本对数据进行清洗和处理，生成适用于文本摘要任务的格式。此过程旨在从原始新闻文章中提取出摘要，以供后续模型训练和评估之用。

特点

Daily Mail数据集的特点在于，它专为文本摘要任务设计，包含了大量的新闻文章及相应的摘要。数据集的构建不仅考虑了数据的多样性，还注重了数据质量，确保每一篇文章与其摘要的相关性，从而提高了数据集在训练文本摘要模型时的有效性和可靠性。

使用方法

使用Daily Mail数据集时，用户需先下载并解压原始数据集，随后通过提供的Python脚本进行数据预处理。具体使用中，用户需要指定输入数据和输出数据的路径，通过脚本生成可用于模型训练的数据格式。此外，数据集的使用还涉及对数据集的划分，包括训练集、验证集和测试集，以全面评估模型在文本摘要任务上的性能。

背景与挑战

背景概述

在自然语言处理领域，文本摘要作为信息提炼与压缩的关键技术，始终受到研究者的广泛关注。Daily Mail数据集，创建于21世纪初，由纽约大学等机构的科研人员共同开发，旨在为文本摘要任务提供高质量的数据资源。该数据集汇集了大量来自CNN和Daily Mail的新闻文章及其对应的摘要，为研究文本摘要算法提供了丰富的实验材料，对推动该领域的发展起到了重要作用。

当前挑战

Daily Mail数据集在构建和应用过程中，面临了诸多挑战。首先，在领域问题上，如何从大量非结构化的文本中自动提取出简洁且信息丰富的摘要，是一大难题。其次，在构建过程中，数据清洗、标准化以及摘要与原文的对齐等问题，都需要克服技术难题。此外，数据集的多样性和规模性也对计算资源和处理算法提出了更高的要求。

常用场景

经典使用场景

在文本摘要研究领域，Daily Mail数据集被广泛作为基准数据集使用。该数据集包含了大量新闻文章及其对应的摘要，为研究者提供了一个丰富的文本资源，以便于训练和评估自动文本摘要模型的性能。

解决学术问题

Daily Mail数据集的引入，解决了自动文本摘要领域中缺乏大规模、高质量标注数据的难题。它的应用极大地推动了该领域的发展，使得研究者能够更加精确地评估和提升摘要算法的准确性和流畅性。

衍生相关工作

基于Daily Mail数据集，学术界衍生出了众多经典工作，包括但不限于文本摘要的深度学习方法研究、摘要评估指标的开发，以及跨语言文本摘要等扩展研究。这些工作进一步拓展了文本摘要技术的边界和应用范围。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

poi

本项目收集国内POI兴趣点，当前版本数据来自于openstreetmap。

github 收录

CosyVoice 2

CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集，旨在通过大规模多语言数据集训练，实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率，并结合预训练的大型语言模型作为骨干，支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域，旨在解决高延迟和低自然度的问题，提供接近人类水平的语音合成质量。

arXiv 收录

中国行政区划shp数据

中国行政区划数据是重要的基础地理信息数据，目前不同来源的全国行政区划数据非常多，但能够开放获取的高质量行政区域数据少之又少。基于此，锐多宝的地理空间制作一套2013-2023年可开放获取的高质量行政区划数据。该套数据以2022年国家基础地理信息数据中的县区划数据作为矢量基础，辅以高德行政区划数据、天地图行政区划数据，参考历年来民政部公布的行政区划为属性基础，具有时间跨度长、属性丰富、国界准确、更新持续等特性。中国行政区划数据统计截止时间是2023年2月12日，包含省、市、县、国界、九段线等矢量shp数据。该数据基于2020年行政区划底图，按时间顺序依次制作了2013-2023年初的行政区划数据。截止2023年1月1日，我国共有34个省级单位，分别是4个直辖市、23个省、5个自治区和2个特别行政区。截止2023年1月1日，我国共有333个地级单位，分别是293个地级市、7个地区、30个自治州和3个盟，其中38个矢量要素未纳入统计（比如直辖市北京等、特别行政区澳门等、省直辖县定安县等）。截止2023年1月1日，我国共有2843个县级单位，分别是1301个县、394个县级市、977个市辖区、117个自治县、49个旗、3个自治旗、1个特区和1个林区，其中9个矢量要素未纳入县级类别统计范畴（比如特别行政区香港、无县级单位的地级市中山市东莞市等）。

CnOpenData 收录

Arizona Cities by Population

A dataset listing Arizona cities by population for 2024.

www.arizona-demographics.com 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度，中国近海台风路径数据集，包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据，经过处理整合后形成文件，如使用csv文件需使用文本编辑器打开浏览，否则会出现乱码，如要使用excel查看数据，请使用xlsx的格式。

国家海洋科学数据中心收录