NEWTS

Name: NEWTS
Creator: 布朗大学计算机科学系，美国；洛桑联邦理工学院机器学习和优化实验室，瑞士
Published: 2022-05-31 18:01:38
License: 暂无描述

arXiv2022-05-31 更新2024-06-21 收录

下载链接：

https://github.com/ali-bahrainian/NEWTS

下载链接

链接失效反馈

官方服务：

资源简介：

NEWTS数据集是由布朗大学计算机科学系和洛桑联邦理工学院机器学习和优化实验室共同创建的，专注于新闻主题聚焦摘要的首个数据集。该数据集基于著名的CNN/Dailymail数据集，通过在线众包方式增加了新的主题聚焦摘要。数据集包含3000篇新闻文章，每篇文章配有两个主题聚焦的人工编写摘要，共计6000条摘要。NEWTS数据集的创建旨在支持主题聚焦摘要的研究，特别是在控制文本生成领域，以解决现有摘要数据集在主题多样性和个性化需求方面的不足。

The NEWTS dataset, co-developed by the Department of Computer Science at Brown University and the Laboratory for Machine Learning and Optimization at École Polytechnique Fédérale de Lausanne (EPFL), is the first dataset dedicated to news topic-focused summarization. Built upon the well-known CNN/DailyMail dataset, this dataset incorporates additional topic-focused summaries created via online crowdsourcing. The dataset contains 3,000 news articles, each paired with two human-written topic-focused summaries, totaling 6,000 summaries. The NEWTS dataset was developed to support research on topic-focused summarization, particularly in the domain of controlled text generation, aiming to address the limitations of existing summarization datasets in terms of topic diversity and personalized summarization demands.

提供机构：

布朗大学计算机科学系，美国；洛桑联邦理工学院机器学习和优化实验室，瑞士

创建时间：

2022-05-31

搜集汇总

数据集介绍

构建方式

在新闻摘要研究领域，针对传统数据集缺乏主题导向摘要的局限，NEWTS数据集的构建采用了系统化方法。该数据集以广泛使用的CNN/Dailymail新闻语料为基础，首先通过潜在狄利克雷分配模型从训练集中提取了250个初始主题，并依据归一化点间互信息分数筛选出最具连贯性的50个主题。随后，研究者从源语料中选取那些至少包含两个主要主题且主题累积概率超过阈值的文章，确保每篇文章都能从两个不同角度进行摘要。通过亚马逊众包平台，标注者为每篇文章撰写了两个分别聚焦于不同主题的摘要，并遵循严格的指令以避免内容复制并保持主题集中。为确保数据质量，开发了自动过滤脚本以剔除过短、语法错误、主题不相关或包含整句抄袭的摘要，并辅以人工抽查和标注者管理，最终构建了包含3000篇文章及其6000个主题摘要的高质量语料库。

特点

NEWTS数据集的核心特点在于其首创的主题聚焦摘要范式，突破了传统摘要数据集的通用性限制。该数据集为每篇源文章提供了两个由人工撰写的高质量参考摘要，每个摘要分别深入阐述文章中的两个不同主题，从而支持对可控文本生成模型的细粒度评估。数据集涵盖了50个经过精心筛选的连贯新闻主题，如法律、经济、气候、体育等，确保了主题的多样性和现实相关性。此外，NEWTS创新性地引入了四种不同的提示类型，包括主题词、主题短语、主题句和主题标识符，为研究提示工程对主题条件生成的影响提供了丰富实验基础。这些特点共同使得NEWTS成为推动个性化摘要和可控文本生成研究的关键资源。

使用方法

NEWTS数据集主要用于训练和评估主题可控的抽象摘要模型。研究人员可以按照标准的数据划分，使用其训练集对诸如BART、T5、ProphetNet等序列到序列模型进行微调。在模型输入阶段，可将四种提示类型中的任何一种与源文章文本结合，以引导模型生成特定主题的摘要。在评估阶段，测试集提供了人类撰写的主题摘要作为参考标准，允许使用ROUGE等自动指标评估摘要的忠实度和流畅性，同时也可利用数据集提供的LDA主题模型计算生成摘要的主题聚焦分数，以量化其主题一致性。此外，该数据集支持对不同的提示策略、训练数据规模以及模型架构进行对比实验，为探索条件文本生成的最优方法提供了实证基础。

背景与挑战

背景概述

在自然语言处理领域，文本摘要技术正逐步接近人类水平的保真度，然而现有基准数据集大多遵循通用摘要范式，难以满足个性化或主题导向的摘要需求。NEWTS数据集由布朗大学与EPFL的研究团队于近期创建，旨在填补主题聚焦摘要数据资源的空白。该数据集基于广泛使用的CNN/Dailymail新闻语料，通过众包标注为每篇源文章添加两个不同主题的参考摘要，核心研究问题是推动可控文本生成模型在主题导向摘要任务中的评估与发展。NEWTS的推出为个性化摘要、事件分析及多视角内容生成等应用提供了重要基础，显著丰富了摘要研究社区的评估体系。

当前挑战

NEWTS数据集致力于解决主题聚焦摘要这一新兴任务的评估挑战，其核心在于如何使模型生成紧密围绕指定主题、同时避免无关内容的摘要。构建过程中的挑战包括：首先，从原始新闻语料中筛选出包含至少两个显著主题的文章，需平衡主题显著性与内容覆盖度；其次，通过众包获取高质量的主题摘要时，必须设计清晰的标注指南并实施严格的质量控制，如自动过滤与人工抽查相结合，以确保摘要的主题相关性与语言规范性；此外，为支持条件生成，需设计多样化的提示模板（如主题词、主题短语、主题句子等），并验证其在不同模型下的有效性，这增加了数据集构建的复杂性与技术门槛。

常用场景

经典使用场景

在自然语言生成领域，NEWTS数据集为话题聚焦式摘要生成任务提供了基准评估平台。该数据集基于广泛使用的CNN/Dailymail新闻语料构建，每篇源文章均配备两个针对不同主题的人工撰写参考摘要。研究者在开发可控文本生成模型时，常利用NEWTS评估模型在特定主题约束下的摘要生成能力，通过对比不同提示策略（如主题词、主题短语、主题句子和主题ID）的效果，探索最优的条件生成机制。

衍生相关工作

NEWTS数据集的发布催生了多项话题可控生成的前沿研究。基于该数据集，研究者对T5、BART、ProphetNet等Transformer模型进行了系统性评估，并优化了提示工程策略。相关工作进一步拓展到跨领域主题迁移、零样本话题生成等方向，同时促进了如CATS（可定制抽象话题摘要）等专用架构的发展，为可控文本生成领域建立了新的方法论体系。

数据集最近研究