lil-lab/newsroom|新闻摘要数据集|文本生成数据集

hugging_face2024-01-18 更新2024-05-25 收录

新闻摘要

文本生成

下载链接：

https://hf-mirror.com/datasets/lil-lab/newsroom

下载链接

链接失效反馈

资源简介：

CORNELL NEWSROOM是一个用于训练和评估摘要生成系统的大型数据集。它包含130万篇新闻文章和摘要，这些文章和摘要由38家主要新闻机构的作者和编辑撰写。数据集的特征包括新闻文本、摘要、标题、URL、日期等，并且还包含了一些与摘要生成相关的指标，如密度、覆盖率和压缩率。数据集的语言为英语，且为单语数据集。数据集的创建和注释由专家生成，数据集的许可证为其他类型。数据集的下载大小为0 MB，生成的数据集大小为5.30 GB。

提供机构：

lil-lab

原始信息汇总

数据集概述

名称: CORNELL NEWSROOM

语言: 英语 (en)

许可证: 其他

多语言性: 单语

任务类别: 摘要生成

任务ID: news-articles-summarization

数据集大小: 未知

源数据: 原始

数据集信息:

特征:
- text: 新闻文本，类型为string
- summary: 新闻摘要，类型为string
- title: 新闻标题，类型为string
- url: 新闻URL，类型为string
- date: 新闻日期，类型为string
- density_bin: 密度分类，类型为string
- coverage_bin: 覆盖分类，类型为string
- compression_bin: 压缩分类，类型为string
- density: 提取密度，类型为float32
- coverage: 提取覆盖，类型为float32
- compression: 压缩比率，类型为float32
数据分割:
- train: 995041个样本，4357506078字节
- validation: 108837个样本，473206951字节
- test: 108862个样本，472446866字节
数据集大小: 5.30 GB

数据集创建

注释创建者: 专家生成

语言创建者: 专家生成

许可证信息: 该数据集的使用协议是与Cornell Newsroom Summaries Team的合法协议，仅用于非商业研究和教育目的。通过下载或使用数据集，研究者同意遵守此协议的条款和条件。

引用信息:

@inproceedings{N18-1065, author = {Grusky, Max and Naaman, Mor and Artzi, Yoav}, title = {NEWSROOM: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies}, booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies}, year = {2018}, }

贡献者: 感谢@lewtun, @patrickvonplaten, @yoavartzi, @thomwolf添加此数据集。

AI搜集汇总

数据集介绍

构建方式

该数据集由Cornell Newsroom团队精心构建，汇集了来自38家主要出版物的130万篇新闻文章及其对应的摘要。数据集的构建基于专家生成的内容，确保了数据的高质量和专业性。每篇文章不仅包含原始文本和摘要，还附带了标题、URL、发布日期等元数据，以及密度、覆盖率和压缩比等量化指标，这些指标进一步细分为低、中、高三个等级，为研究者提供了丰富的分析维度。

特点

该数据集的显著特点在于其规模庞大且内容多样，涵盖了广泛的新闻主题和不同的摘要生成策略。数据集中的每篇文章都配备了详细的元数据和量化指标，如密度、覆盖率和压缩比，这些指标不仅有助于评估摘要的质量，还能为研究者提供深入的分析视角。此外，数据集的结构化设计使得其在训练和评估摘要生成系统时具有极高的灵活性和实用性。

使用方法

使用该数据集时，研究者可以通过下载并解压包含训练、验证和测试集的JSONL文件，将其导入到相应的机器学习框架中。数据集的结构化设计使得研究者可以轻松访问和处理文本、摘要、标题、URL、日期等字段，以及密度、覆盖率和压缩比等量化指标。研究者可以根据具体需求选择不同的数据分割，利用这些数据进行摘要生成模型的训练、验证和测试，从而推动自然语言处理领域的发展。

背景与挑战

背景概述

NEWSROOM数据集由康奈尔大学的研究人员创建，旨在推动新闻摘要生成系统的研究与评估。该数据集包含130万篇新闻文章及其对应的摘要，涵盖了38家主要出版机构的新闻内容。其核心研究问题聚焦于如何通过多样化的抽取策略生成高质量的新闻摘要。NEWSROOM数据集的发布时间为2018年，由Max Grusky、Mor Naaman和Yoav Artzi等学者主导开发，对自然语言处理领域，尤其是文本摘要任务，产生了深远的影响。

当前挑战

NEWSROOM数据集的构建面临多重挑战。首先，如何从大量新闻文章中筛选并提取高质量的摘要数据，确保数据的多样性和代表性，是数据集创建过程中的主要难题。其次，新闻摘要的生成涉及复杂的自然语言处理技术，如何在抽取式和生成式摘要之间找到平衡，并评估其密度、覆盖率和压缩比，也是该领域的关键挑战。此外，数据集的规模庞大，如何有效管理和存储这些数据，以及确保数据的质量和一致性，也是构建过程中需要克服的难题。

常用场景

经典使用场景

在自然语言处理领域，lil-lab/newsroom数据集因其庞大的规模和高质量的新闻摘要数据而成为文本摘要任务的经典资源。该数据集包含了130万篇新闻文章及其对应的摘要，涵盖了38家主要出版物的内容。研究者们常利用此数据集训练和评估自动摘要生成模型，特别是在提取式和抽象式摘要生成方面，该数据集提供了丰富的特征，如密度、覆盖率和压缩比，这些特征为模型优化提供了宝贵的参考。

实际应用

在实际应用中，lil-lab/newsroom数据集被广泛用于新闻自动化处理系统，帮助新闻机构快速生成新闻摘要，提高信息传播效率。此外，该数据集还被用于开发智能阅读助手，为用户提供个性化的新闻摘要服务，帮助他们在短时间内获取关键信息。在教育领域，该数据集也被用于训练学生和研究者的文本摘要技能，提升他们的信息处理能力。

衍生相关工作

基于lil-lab/newsroom数据集，研究者们开展了多项相关工作。例如，有研究利用该数据集开发了新的摘要生成算法，提升了摘要的准确性和流畅性。此外，还有研究探讨了如何利用该数据集中的特征进行摘要质量评估，提出了新的评估指标和方法。这些衍生工作不仅丰富了文本摘要领域的研究内容，也为实际应用提供了技术支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据，涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标，适用于太阳能资源评估和气候研究。

www.nrel.gov 收录

UAVDT

UAVDT是一个用于目标检测任务的数据集。

github 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库，由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物，并经过仔细分割和对齐。

OpenDataLab 收录