VerMouth

github2023-12-18 更新2024-05-31 收录

下载链接：

https://github.com/marcoguerini/VerMouth

下载链接

链接失效反馈

官方服务：

资源简介：

VerMouth数据集用于通过情感响应生成来对抗在线误导性声明。数据集包含约12,000个条目，每个条目包括声明、事实核查文章链接、裁决和风格标签，旨在通过不同的情感表达风格来生成个性化的响应。

The VerMouth dataset is designed to counter online misleading statements through the generation of emotional responses. It comprises approximately 12,000 entries, each of which includes a statement, a link to a fact-checking article, a verdict, and style tags. The dataset aims to facilitate the creation of personalized responses by leveraging various emotional expression styles.

创建时间：

2023-10-20

原始信息汇总

数据集概述

名称：VerMouth

目的：用于自动生成针对在线误导性声明的个性化响应。

规模：约12,000个条目。

数据集内容

每个条目包含以下元素：

claim：待分析的事实声明。
fact-checking article：指向包含所有验证声明所需证据的新闻文档的链接。
verdict：对声明的简短文本响应，解释其为何可能为真或假。
style：指示声明表达的风格或情感的标签。

数据收集与处理

数据来源：基于FullFact数据集，重写了声明和裁决。
处理方法：采用作者-审稿人流程，结合基于指令的大型语言模型和人工后期编辑。

数据风格

数据根据两种风格重写：

SMP style：模仿社交媒体平台（尤其是Twitter）的风格。
Emotional style：在社交媒体沟通风格基础上增加情感成分，包括六种基本情感：愤怒、惊讶、厌恶、享受、恐惧和悲伤。

数据分布

SMP-style：1838项
Emotional style：总计10,152项，细分如下：
- 幸福：1527项
- 愤怒：1590项
- 恐惧：1805项
- 厌恶：1675项
- 悲伤：1758项
- 惊讶：1797项

文件描述

数据集在data文件夹中分为_train_, val, 和 test 集。每个条目包括_id_, claim, verdict, 指向FullFact事实检查文章的_link_, 以及_style label_。

引用信息

若使用此数据集，请引用以下文献：

bibtex @inproceedings{russo-etal-2023-countering, title = "Countering Misinformation via Emotional Response Generation", author = "Russo, Daniel and Kaszefski-Yaschuk, Shane and Staiano, Jacopo and Guerini, Marco", editor = "Bouamor, Houda and Pino, Juan and Bali, Kalika", booktitle = "Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing", month = dec, year = "2023", address = "Singapore", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.emnlp-main.703", doi = "10.18653/v1/2023.emnlp-main.703", pages = "11476--11492", }

许可

VerMouth数据集仅供研究使用，不可重新分发。使用时需引用相关出版物。

搜集汇总

数据集介绍

构建方式

VerMouth数据集的构建基于FullFact数据集，通过采用作者-审稿人管道方法，结合指令式大型语言模型和人工后期编辑，对原始声明和裁决进行了重写。这一过程旨在模拟社交媒体平台上的沟通风格，特别是Twitter风格，并在此基础上增加了情感成分。数据集最终包含约12,000条条目，每条条目包括声明、事实核查文章链接、裁决以及风格标签。

特点

VerMouth数据集的特点在于其独特的风格分类，包括社交媒体平台风格（SMP风格）和情感风格。情感风格进一步细分为六种基本情绪：愤怒、惊讶、厌恶、快乐、恐惧和悲伤。这种分类不仅丰富了数据集的情感维度，还为研究者在自动生成个性化回应时提供了更多的情感表达选择。此外，数据集的每个条目都附有详细的事实核查文章链接，确保了数据的可靠性和透明性。

使用方法

VerMouth数据集的使用方法相对直观，数据集被划分为训练集、验证集和测试集，每个条目包含唯一的ID、声明、裁决、事实核查文章链接以及风格标签。研究者可以通过这些数据训练模型，以生成针对误导性声明的个性化回应。使用该数据集时，需引用相关论文，并遵守仅用于研究目的的许可协议。数据集的结构化设计和丰富的情感标签为自然语言处理任务提供了坚实的基础。

背景与挑战

背景概述

VerMouth数据集由Daniel Russo等研究人员于2023年提出，旨在通过情感回应生成来应对在线误导信息。该数据集基于FullFact数据集，通过结合大型语言模型和人工后编辑的方式，重新编写了声明和裁决，以适应社交媒体平台的沟通风格。VerMouth数据集包含约12,000条条目，每条条目包括声明、事实核查文章链接、裁决以及情感风格标签。该数据集在EMNLP 2023会议上发布，为自动生成个性化回应提供了重要资源，推动了自然语言处理领域在应对虚假信息方面的研究进展。

当前挑战

VerMouth数据集在构建过程中面临多重挑战。首先，如何准确捕捉社交媒体上的情感表达并将其融入回应生成中，是一个复杂的问题。其次，数据集的构建依赖于大型语言模型和人工后编辑的结合，这一过程需要大量的时间和资源投入。此外，确保生成的回应的准确性和情感一致性，也是一个重要的技术挑战。最后，如何在保持数据集多样性的同时，确保其在不同情感风格之间的平衡，也是构建过程中需要解决的难题。这些挑战不仅影响了数据集的构建效率，也对后续的研究和应用提出了更高的要求。

常用场景

经典使用场景

VerMouth数据集在自然语言处理领域中被广泛用于自动生成针对误导性言论的个性化回应。其独特之处在于结合了社交媒体风格和情感成分，使得生成的回应不仅具有事实核查的功能，还能在情感上与用户产生共鸣。这种应用场景特别适合在社交媒体平台上进行信息纠偏，帮助用户更好地理解和应对虚假信息。

衍生相关工作

基于VerMouth数据集，研究者们已经开展了一系列相关研究。例如，一些工作探索了如何通过多模态学习进一步提升情感回应的生成效果，另一些研究则专注于优化模型的实时响应能力。此外，VerMouth还为情感计算和社交媒体分析领域提供了新的研究素材，推动了这些领域的交叉融合与创新。

数据集最近研究