strombergnlp/rumoureval_2019

Name: strombergnlp/rumoureval_2019
Creator: strombergnlp
Published: 2022-10-25 21:43:58
License: 暂无描述

Hugging Face2022-10-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/strombergnlp/rumoureval_2019

下载链接

链接失效反馈

官方服务：

资源简介：

RumourEval 2019数据集是一个用于文本分类任务的数据集，特别是立场预测任务。其目标是根据对某个声明的回复预测其立场是支持、否认、质疑还是评论。数据集是单语言的，仅包含英语，数据来源于Twitter用户，并通过众包方式进行标注。数据集的结构包括数据实例、数据字段和数据分割，数据字段包括id、source_text、reply_text、label等。数据集的创建目的是为了支持SemEval 2019任务1，即谣言验证和谣言支持度的确定。

The RumourEval 2019 dataset is a textual classification dataset specifically designed for stance prediction tasks. Its goal is to predict the stance of a reply towards a given claim, where the valid stance categories include support, denial, query, and comment. It is a monolingual dataset containing only English data, sourced from Twitter users and annotated via crowdsourcing. The dataset consists of data instances, data fields and data splits, with the data fields including id, source_text, reply_text, label and other relevant entries. This dataset was developed to support SemEval 2019 Task 1: Rumor Verification and Stance Determination for Rumors.

提供机构：

strombergnlp

原始信息汇总

数据集概述

数据集名称

名称: RumourEval 2019
别名: rumoureval_2019

数据集描述

摘要: 该数据集用于英语中的立场预测任务，旨在预测对某一声明的回复是否支持、否认、质疑或仅评论该声明。作为SemEval 2019任务之一。
语言: 英语（bcp47: en）
任务类别: 文本分类
任务ID: 事实核查

数据集结构

数据实例: 包含id, source_text, reply_text, label等字段。
数据字段:
- id: 字符串类型，标识符。
- source_text: 字符串类型，声明/主题。
- reply_text: 字符串类型，需分类的回复文本。
- label: 类别标签，表示文本对目标的立场。标签包括：支持（0）、否认（1）、质疑（2）、评论（3）。
数据分割: 包括训练集（7,005个实例）、开发集（2,425个实例）和测试集（2,945个实例）。

数据集创建

源数据生产者: Twitter用户
注释过程: 详见相关论文
许可证: 创意共享署名4.0国际许可（CC-BY-4.0）

使用数据注意事项

数据集影响: 未详细说明
偏见讨论: 未详细说明
其他已知限制: 未详细说明

附加信息

数据集管理员: 论文作者
贡献者: Leon Derczynski

搜集汇总

数据集介绍

构建方式

在社交媒体信息验证的研究领域，RumourEval 2019数据集的构建体现了对网络谣言传播机制的深入探索。该数据集源自Twitter平台上的公开对话，通过精心设计的众包标注流程，对用户针对特定主张的回复进行立场分类。标注过程遵循严格的学术规范，依据《Analysing How People Orient to and Spread Rumours in Social Media by Looking at Conversational Threads》一文中阐述的方法论，确保了数据标注的一致性与可靠性。数据涵盖了对主张的支持、否认、质疑及评论四类立场，为后续的自动化分析奠定了坚实基础。

特点

该数据集在自然语言处理领域具有鲜明的特色，专注于立场检测这一核心任务。其数据实例以对话线程形式呈现，每条记录包含原始主张文本及对应的回复文本，并附有精细的立场标签。数据规模适中，包含训练集、开发集和测试集，便于模型训练与评估。作为SemEval 2019竞赛的任务数据集，它提供了标准化的评估框架，促进了不同模型在相同基准上的性能比较。数据以英语为主，反映了社交媒体语言的多样性与实时性。

使用方法

研究人员可利用该数据集开展立场检测模型的训练与验证工作。典型流程包括加载数据分割，提取source_text与reply_text作为输入特征，并将label作为预测目标。模型可基于深度学习或传统机器学习方法构建，旨在自动判断回复文本对原始主张的立场倾向。在评估阶段，可使用官方提供的测试集衡量模型在支持、否认、质疑、评论四分类任务上的性能。该数据集亦适用于研究谣言传播动力学、社交媒体对话分析等跨学科课题。

背景与挑战

背景概述

在社交媒体信息泛滥的时代，谣言传播的检测与验证成为自然语言处理领域的关键议题。RumourEval 2019数据集由Genevieve Gorrell、Elena Kochkina、Maria Liakata等学者于2019年构建，并作为SemEval 2019竞赛任务的核心数据。该数据集聚焦于立场检测任务，旨在通过分析用户对特定主张的回复，自动识别其支持、否认、质疑或评论的立场，从而为谣言验证提供数据基础。其构建基于Twitter平台的真实对话线程，涵盖了多样化的社会事件，推动了计算语言学在社交媒体分析、事实核查等方向的研究进展，对信息可信度评估模型的开发产生了深远影响。

当前挑战

RumourEval 2019数据集所应对的核心挑战在于社交媒体中谣言立场检测的复杂性。用户回复常包含隐含语义、讽刺或非正式表达，使得自动分类模型难以准确捕捉细微的立场差异。此外，数据构建过程面临诸多困难：原始Twitter对话的噪声过滤、标注一致性的保障，以及跨事件语境下立场标签的平衡性维护，均为数据集的质量与可靠性带来了显著考验。这些挑战不仅体现了自然语言理解在开放域中的固有难度，也揭示了社交媒体数据标注在实践层面的操作瓶颈。

常用场景

经典使用场景

在社交媒体信息可信度评估领域，RumourEval 2019数据集为立场检测任务提供了标准化的基准。该数据集通过标注用户对特定主张的回复立场，如支持、否认、质疑或评论，为研究者构建自动化立场分类模型奠定了数据基础。其经典使用场景集中于自然语言处理竞赛，如SemEval 2019任务7，旨在推动模型对社交媒体对话中立场表达的精准识别。

衍生相关工作

基于该数据集衍生的经典工作包括多层次注意力网络与图神经网络在立场检测中的创新应用。例如，研究者通过建模对话线程的结构特征，开发出能够捕捉上下文依赖关系的联合学习框架。后续研究进一步拓展了多任务学习范式，将立场检测与谣言真实性验证相结合，推动了《信息传播动力学分析》等跨学科研究的进展。

数据集最近研究