Yahoo! News Dataset

github2024-02-26 更新2024-05-31 收录

下载链接：

https://github.com/TobeyYang/Yahoo-News-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了从Yahoo! News爬取的新闻文章及其相关评论，包括新闻的段落结构、31个新闻类别、提及的Wikipedia实体、每条评论的投票信息（点赞、点踩、举报）以及评论的情绪标注（积极、消极、中性）。数据集经过预处理后，随机划分了训练集、验证集和测试集。

This dataset comprises news articles and their associated comments crawled from Yahoo! News, including the paragraph structure of the articles, 31 news categories, mentioned Wikipedia entities, voting information for each comment (likes, dislikes, reports), and sentiment annotations of the comments (positive, negative, neutral). After preprocessing, the dataset has been randomly divided into training, validation, and test sets.

创建时间：

2019-12-24

原始信息汇总

Yahoo! News Dataset 概述

数据集来源与构建

数据集由爬取自Yahoo! News的新闻文章及其相关评论构建而成。
数据集用于论文《Read, Attend and Comment: A Deep Architecture for Automatic News Comment Generation (EMNLP2019)》。

数据集内容

Paragraph: 保留新闻文章的段落结构。
Category: 包含31种新闻类别，类别分布如图1所示。
Wiki-Entities: 提取新闻文章中提及的维基百科实体。
Vote: 每条评论包含点赞、点踩和举报信息。
Sentiment: 每条评论由Yahoo!标注为正面、负面或中性。

数据集划分

Train: 152,355条新闻
Validation: 5,000条新闻
Test: 3,160条新闻

统计信息

Avg. # Comments per News: 训练集、验证集和测试集的平均评论数均为20.5。
Avg. #Upvotes per Comment: 训练集31.4，验证集30.2，测试集32.0。
Avg. #DownVotes per Comment: 训练集4.8，验证集4.8，测试集4.9。
Avg. #AbuseVotes per Comment: 训练集、验证集和测试集均为0.05。

引用信息

若在研究中使用此数据集，请引用EMNLP2019论文。

搜集汇总

数据集介绍

构建方式

Yahoo! News Dataset的构建过程始于从Yahoo! News网站爬取新闻文章及其相关评论。在数据预处理阶段，保留了新闻文章的段落结构，并提取了新闻中提及的维基百科实体。每条评论均包含来自读者的点赞、点踩和举报信息，并由Yahoo!标注了情感极性（正面、负面或中性）。最终，数据集被随机划分为训练集、验证集和测试集，确保了数据的多样性和代表性。

使用方法

Yahoo! News Dataset适用于新闻评论生成、情感分析和多任务学习等研究任务。研究人员可通过下载链接获取数据集，并按照训练集、验证集和测试集的划分进行模型训练和评估。数据集中的段落结构、维基百科实体和情感标注信息可用于增强模型的上下文理解和情感预测能力。使用该数据集时，请引用相关论文以尊重数据提供者的工作。

背景与挑战

背景概述

Yahoo! News Dataset由微软研究院的研究团队于2019年构建，旨在支持自动新闻评论生成的研究。该数据集基于Yahoo! News平台上的新闻文章及其相关评论，涵盖了31个新闻类别，并保留了新闻的段落结构。数据集还包含了新闻中提及的维基百科实体、评论的投票信息（如赞成票、反对票和滥用票）以及情感标注（正面、负面或中性）。该数据集的发布为自然语言处理领域，特别是新闻评论生成任务提供了重要的数据支持，推动了相关算法的发展。

当前挑战

Yahoo! News Dataset在构建过程中面临了多方面的挑战。首先，新闻评论生成任务本身具有较高的复杂性，要求模型能够理解新闻内容并生成与上下文相关的评论，这对模型的语义理解和生成能力提出了较高要求。其次，数据集的构建过程中需要处理大量的原始数据，包括新闻文章的段落结构、评论的投票信息以及情感标注，这些数据的清洗和预处理工作较为繁琐。此外，数据集中评论的情感标注和投票信息的准确性对模型的训练效果具有重要影响，如何确保这些标注的可靠性也是一个关键挑战。

常用场景

经典使用场景

Yahoo! News Dataset 在自然语言处理领域中被广泛应用于新闻评论生成任务。该数据集包含了大量的新闻文章及其相关评论，为研究人员提供了丰富的文本数据，用于训练和评估自动评论生成模型。通过利用新闻文章的段落结构、类别信息、维基百科实体以及评论的情感标签，研究者能够构建复杂的深度学习模型，以生成与新闻内容相关的自然语言评论。

解决学术问题

该数据集有效解决了自动新闻评论生成中的多个学术问题。首先，它提供了大规模的新闻与评论对，使得模型能够学习到新闻内容与评论之间的语义关联。其次，数据集中的情感标签和投票信息为模型的情感分析和评论质量评估提供了重要依据。此外，维基百科实体的引入增强了模型对新闻背景知识的理解，从而提升了生成评论的准确性和相关性。

实际应用

在实际应用中，Yahoo! News Dataset 被用于开发智能新闻评论系统，帮助新闻平台自动生成与新闻内容相关的评论，提升用户互动体验。此外，该数据集还可用于情感分析、评论质量评估以及新闻推荐系统的开发。通过分析评论中的情感倾向和用户投票行为，平台能够更好地理解用户需求，优化内容推荐策略。

数据集最近研究