NewSHead

github2024-01-05 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/NewSHead

下载链接

链接失效反馈

官方服务：

资源简介：

NewSHead数据集是一个多文档新闻标题数据集，用于NHNet训练新闻故事标题生成模型。该数据集包含369,940个英文新闻故事，每个故事至少包含三篇至五篇文章，用于训练、验证和测试。数据集收集自2018年5月至2019年5月的新闻文章，使用专有聚类算法根据内容相似性对文章进行分组，并由众包平台的策展人提供最多35个字符的标题来描述故事的主要信息。

The NewSHead dataset is a multi-document news headline dataset designed for training news story headline generation models using NHNet. It comprises 369,940 English news stories, each containing at least three to five articles for training, validation, and testing purposes. The dataset was compiled from news articles published between May 2018 and May 2019. Articles were grouped based on content similarity using a proprietary clustering algorithm, and curators from a crowdsourcing platform provided headlines of up to 35 characters to encapsulate the main information of each story.

创建时间：

2020-03-25

原始信息汇总

数据集概述

数据集名称

NewSHead

数据集用途

用于新闻故事标题生成任务。

数据集内容

语言：英语
故事数量：369,940个新闻故事
URL数量：932,571个唯一URL
数据分割：训练集359,940个故事，验证集5,000个故事，测试集5,000个故事
每个故事的文章数量：至少三篇，最多五篇

数据收集时间

2018年5月至2019年5月

数据处理方法

使用专有聚类算法，根据内容相似性对发布在时间窗口内的文章进行分组。
从每个聚类中选择最多五篇代表性文章用于生成故事标题。
通过众包平台请编辑提供最多35个字符的标题，描述故事的主要信息。

数据集下载链接

NewSHead数据集下载

数据集处理工具

Tensorflow Models - NHNet

数据集引用

@InProceedings{headline2020, title = {{Generating Representative Headlines for News Stories}}, author = {Gu, Xiaotao and Mao, Yuning and Han, Jiawei and Liu, Jialu and Yu, Hongkun and Wu, You and Yu, Cong and Finnie, Daniel and Zhai, Jiaqi and Zukoski, Nicholas}, booktitle = {Proc. of the the Web Conf. 2020}, year = {2020} }

搜集汇总

数据集介绍

构建方式

NewSHead数据集的构建过程依托于2018年5月至2019年5月间发布的新闻故事。通过专有的聚类算法，系统在特定时间窗口内加载文章，并基于内容相似性进行分组，形成具有连贯主题的新闻故事。每个故事包含至少三篇、至多五篇代表性文章，随后通过众包平台的编辑为每个故事生成不超过35个字符的标题，以概括故事的核心信息。

特点

NewSHead数据集包含369,940个英文新闻故事，涵盖932,571个唯一URL，其中359,940个用于训练，5,000个用于验证，5,000个用于测试。每个故事标题长度严格控制在10至35个字符之间，相较于传统摘要更为简洁，甚至短于数据集中的文章标题。此外，数据集还提供了广泛的主题分析，展示了新闻故事的多样化分布。

使用方法

NewSHead数据集主要用于新闻故事标题生成任务，用户可通过GitHub提供的下载链接获取数据。数据处理和训练代码可在TensorFlow Models的NHNet项目中找到。使用该数据集时，建议参考相关论文以了解其构建背景和技术细节，并遵循提供的工具链进行数据预处理和模型训练，以优化生成标题的质量。

背景与挑战

背景概述

NewSHead数据集由Google Research团队于2020年发布，旨在支持新闻故事标题生成任务。该数据集包含369,940个英文新闻故事，涵盖932,571个独特的URL，时间跨度为2018年5月至2019年5月。数据集的核心研究问题是如何从多个相关新闻文章中生成具有代表性的标题。通过专有的聚类算法，研究人员将内容相似的新闻文章分组，并从中选取最多五篇代表性文章用于生成标题。该数据集为新闻摘要和标题生成领域提供了重要的研究资源，推动了自然语言处理技术在新闻领域的应用。

当前挑战

NewSHead数据集在构建和应用过程中面临多重挑战。首先，新闻标题生成任务本身具有复杂性，要求生成的标题在极短的字符限制内（10至35个字符）准确概括新闻故事的核心信息，这对模型的语义理解和压缩能力提出了极高要求。其次，数据集的构建依赖于聚类算法，尽管算法能够将内容相似的新闻文章分组，但仍存在噪声问题，部分文章可能与故事主题不完全相关，影响标题生成的准确性。此外，数据集的规模庞大，处理和分析数百万篇文章的计算资源需求较高，对研究者的技术能力提出了挑战。

常用场景

经典使用场景

NewSHead数据集在新闻标题生成任务中展现了其独特的价值。通过提供大量关于同一事件的新闻文章，该数据集为研究人员和开发者提供了一个理想的平台，用于训练和评估新闻标题生成模型。其包含的369,940个英文新闻故事，每个故事由至少三篇相关文章组成，确保了数据的丰富性和多样性。

衍生相关工作

NewSHead数据集催生了一系列相关研究工作，特别是在新闻标题生成和新闻摘要领域。基于该数据集的研究成果，如NHNet模型，展示了如何利用深度学习技术生成高质量的新闻标题。这些工作不仅提升了新闻标题生成的技术水平，还为其他相关领域的研究提供了宝贵的参考和借鉴。

数据集最近研究