five

lil-lab/newsroom

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/lil-lab/newsroom
下载链接
链接失效反馈
资源简介:
CORNELL NEWSROOM是一个用于训练和评估摘要生成系统的大型数据集。它包含130万篇新闻文章和摘要,这些文章和摘要由38家主要新闻机构的作者和编辑撰写。数据集的特征包括新闻文本、摘要、标题、URL、日期等,并且还包含了一些与摘要生成相关的指标,如密度、覆盖率和压缩率。数据集的语言为英语,且为单语数据集。数据集的创建和注释由专家生成,数据集的许可证为其他类型。数据集的下载大小为0 MB,生成的数据集大小为5.30 GB。

CORNELL NEWSROOM是一个用于训练和评估摘要生成系统的大型数据集。它包含130万篇新闻文章和摘要,这些文章和摘要由38家主要新闻机构的作者和编辑撰写。数据集的特征包括新闻文本、摘要、标题、URL、日期等,并且还包含了一些与摘要生成相关的指标,如密度、覆盖率和压缩率。数据集的语言为英语,且为单语数据集。数据集的创建和注释由专家生成,数据集的许可证为其他类型。数据集的下载大小为0 MB,生成的数据集大小为5.30 GB。
提供机构:
lil-lab
原始信息汇总

数据集概述

名称: CORNELL NEWSROOM

语言: 英语 (en)

许可证: 其他

多语言性: 单语

任务类别: 摘要生成

任务ID: news-articles-summarization

数据集大小: 未知

源数据: 原始

数据集信息:

  • 特征:

    • text: 新闻文本,类型为string
    • summary: 新闻摘要,类型为string
    • title: 新闻标题,类型为string
    • url: 新闻URL,类型为string
    • date: 新闻日期,类型为string
    • density_bin: 密度分类,类型为string
    • coverage_bin: 覆盖分类,类型为string
    • compression_bin: 压缩分类,类型为string
    • density: 提取密度,类型为float32
    • coverage: 提取覆盖,类型为float32
    • compression: 压缩比率,类型为float32
  • 数据分割:

    • train: 995041个样本,4357506078字节
    • validation: 108837个样本,473206951字节
    • test: 108862个样本,472446866字节
  • 数据集大小: 5.30 GB

数据集创建

注释创建者: 专家生成

语言创建者: 专家生成

许可证信息: 该数据集的使用协议是与Cornell Newsroom Summaries Team的合法协议,仅用于非商业研究和教育目的。通过下载或使用数据集,研究者同意遵守此协议的条款和条件。

引用信息:

@inproceedings{N18-1065, author = {Grusky, Max and Naaman, Mor and Artzi, Yoav}, title = {NEWSROOM: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies}, booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies}, year = {2018}, }

贡献者: 感谢@lewtun, @patrickvonplaten, @yoavartzi, @thomwolf添加此数据集。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由Cornell Newsroom团队精心构建,汇集了来自38家主要出版物的130万篇新闻文章及其对应的摘要。数据集的构建基于专家生成的内容,确保了数据的高质量和专业性。每篇文章不仅包含原始文本和摘要,还附带了标题、URL、发布日期等元数据,以及密度、覆盖率和压缩比等量化指标,这些指标进一步细分为低、中、高三个等级,为研究者提供了丰富的分析维度。
特点
该数据集的显著特点在于其规模庞大且内容多样,涵盖了广泛的新闻主题和不同的摘要生成策略。数据集中的每篇文章都配备了详细的元数据和量化指标,如密度、覆盖率和压缩比,这些指标不仅有助于评估摘要的质量,还能为研究者提供深入的分析视角。此外,数据集的结构化设计使得其在训练和评估摘要生成系统时具有极高的灵活性和实用性。
使用方法
使用该数据集时,研究者可以通过下载并解压包含训练、验证和测试集的JSONL文件,将其导入到相应的机器学习框架中。数据集的结构化设计使得研究者可以轻松访问和处理文本、摘要、标题、URL、日期等字段,以及密度、覆盖率和压缩比等量化指标。研究者可以根据具体需求选择不同的数据分割,利用这些数据进行摘要生成模型的训练、验证和测试,从而推动自然语言处理领域的发展。
背景与挑战
背景概述
NEWSROOM数据集由康奈尔大学的研究人员创建,旨在推动新闻摘要生成系统的研究与评估。该数据集包含130万篇新闻文章及其对应的摘要,涵盖了38家主要出版机构的新闻内容。其核心研究问题聚焦于如何通过多样化的抽取策略生成高质量的新闻摘要。NEWSROOM数据集的发布时间为2018年,由Max Grusky、Mor Naaman和Yoav Artzi等学者主导开发,对自然语言处理领域,尤其是文本摘要任务,产生了深远的影响。
当前挑战
NEWSROOM数据集的构建面临多重挑战。首先,如何从大量新闻文章中筛选并提取高质量的摘要数据,确保数据的多样性和代表性,是数据集创建过程中的主要难题。其次,新闻摘要的生成涉及复杂的自然语言处理技术,如何在抽取式和生成式摘要之间找到平衡,并评估其密度、覆盖率和压缩比,也是该领域的关键挑战。此外,数据集的规模庞大,如何有效管理和存储这些数据,以及确保数据的质量和一致性,也是构建过程中需要克服的难题。
常用场景
经典使用场景
在自然语言处理领域,lil-lab/newsroom数据集因其庞大的规模和高质量的新闻摘要数据而成为文本摘要任务的经典资源。该数据集包含了130万篇新闻文章及其对应的摘要,涵盖了38家主要出版物的内容。研究者们常利用此数据集训练和评估自动摘要生成模型,特别是在提取式和抽象式摘要生成方面,该数据集提供了丰富的特征,如密度、覆盖率和压缩比,这些特征为模型优化提供了宝贵的参考。
实际应用
在实际应用中,lil-lab/newsroom数据集被广泛用于新闻自动化处理系统,帮助新闻机构快速生成新闻摘要,提高信息传播效率。此外,该数据集还被用于开发智能阅读助手,为用户提供个性化的新闻摘要服务,帮助他们在短时间内获取关键信息。在教育领域,该数据集也被用于训练学生和研究者的文本摘要技能,提升他们的信息处理能力。
衍生相关工作
基于lil-lab/newsroom数据集,研究者们开展了多项相关工作。例如,有研究利用该数据集开发了新的摘要生成算法,提升了摘要的准确性和流畅性。此外,还有研究探讨了如何利用该数据集中的特征进行摘要质量评估,提出了新的评估指标和方法。这些衍生工作不仅丰富了文本摘要领域的研究内容,也为实际应用提供了技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作