Will-They-Won’t-They

Name: Will-They-Won’t-They
Creator: 剑桥大学
Published: 2020-05-01 22:10:37
License: 暂无描述

arXiv2020-05-01 更新2024-06-21 收录

下载链接：

https://github.com/cambridge-wtwt/acl2020-wtwt-tweets

下载链接

链接失效反馈

官方服务：

资源简介：

Will-They-Won’t-They是一个大规模的立场检测数据集，由剑桥大学语言技术实验室创建，包含51,284条英文推文，是目前最大的同类数据集。该数据集专注于金融领域的谣言验证任务，特别是公司间的并购（M&A）操作。数据集的创建过程涉及使用特定关键词从Twitter上抓取相关推文，并由金融领域的专家进行标注。该数据集旨在为立场检测研究提供高质量、可靠的基准，特别是在金融领域，帮助模型理解和预测市场对并购的感知，从而可能解释股票价格的重新评估。

The Will-They-Won’t-They Dataset is a large-scale stance detection dataset created by the Language Technology Lab at the University of Cambridge, comprising 51,284 English tweets and standing as the largest dataset of its kind to date. This dataset focuses on rumor verification tasks within the financial domain, specifically mergers and acquisitions (M&A) transactions between corporations. Its construction process involves scraping relevant tweets from Twitter using targeted keywords, followed by manual annotation by financial domain experts. This dataset aims to provide high-quality, reliable benchmarks for stance detection research, particularly in the financial domain, enabling models to understand and forecast market perceptions of M&A activities, thereby potentially explaining stock price reevaluations.

提供机构：

剑桥大学

创建时间：

2020-05-01

搜集汇总

数据集介绍

构建方式

在社交媒体分析领域，立场检测作为自然语言处理的关键任务，对于谣言验证和虚假新闻识别具有重要价值。Will-They-Won’t-They数据集的构建基于推特平台，聚焦于金融领域的并购事件，以模拟真实的谣言验证场景。研究团队选取了医疗保健和娱乐行业的五个近期并购案例，通过Selenium工具抓取相关推文ID，并利用Tweepy获取文本内容。数据采集时间跨度覆盖并购事件前后，确保样本的时序代表性。标注工作由十位金融领域专家独立完成，采用四类标签体系（支持、反驳、评论、无关），并通过多数投票机制确定最终标注，整个流程历时四个月，保证了数据的高质量与可靠性。

特点

该数据集在立场检测研究中展现出显著优势，其规模达到51,284条推文，远超现有同类资源，为训练复杂神经网络模型提供了充分数据支撑。标注过程完全由领域专家完成，平均科恩κ系数为0.67，人类标注上限κ系数达0.88，确保了标注的一致性与权威性。数据涵盖多个并购事件，呈现真实的标签分布差异，反映了不同并购结果对公众立场的影响。特别值得注意的是，数据集中支持与评论类别的微妙区分构成了重要挑战，这为模型细粒度分类能力提供了测试平台。跨行业的数据构成还支持领域适应性研究，拓展了立场检测在金融文本分析中的应用边界。

使用方法

该数据集可作为立场检测模型的训练与评估基准，支持多种研究方法的应用。在实验设计中，研究者可采用交叉验证策略，在不同并购事件间进行训练与测试，以评估模型的泛化能力。数据预处理环节需进行标准化处理，包括文本分词、用户提及规范化及主题标签清理，并建议使用预训练的推特词向量作为嵌入层输入。对于模型架构，数据集的规模允许尝试从传统支持向量机到层次注意力网络等多种先进模型，特别适合探究目标感知机制与领域迁移问题。此外，数据提供的四类标注体系可用于分析模型在细粒度立场区分上的表现，尤其关注支持与评论类别的混淆模式，推动立场检测向更精准的方向发展。

背景与挑战

背景概述

在自然语言处理领域，立场检测作为一项关键任务，对于虚假新闻识别、事实核查及谣言验证等应用具有重要支撑作用。Will-They-Won’t-They（WT–WT）数据集由剑桥大学语言技术实验室与经济学系的研究团队于2020年共同构建，旨在填补立场检测领域大规模高质量数据资源的空白。该数据集聚焦于金融领域的并购事件，采集了超过五万条英文推文，并由领域专家进行精细标注，从而为立场检测模型提供了稳健且可靠的评估基准。其规模远超同期其他基于用户生成内容的立场检测数据集，不仅推动了立场检测方法的研究，也为跨领域适应性分析提供了宝贵资源。

当前挑战

WT–WT数据集所应对的核心挑战在于金融领域立场检测的复杂性。立场检测需区分支持、反驳、评论及无关四类标签，其中支持与评论类别的微妙差异常导致模型误判，反映了语言表达中立场隐含性与主观性所带来的辨识困难。在构建过程中，研究团队面临诸多挑战：一是数据采集需基于真实并购事件，确保推文时间跨度覆盖事件全程，以模拟谣言验证的实际场景；二是标注工作依赖领域专家，虽提升了质量，却增加了成本与时间消耗；三是跨领域适应性薄弱，模型在从医疗健康领域迁移至娱乐领域时性能显著下降，揭示了当前立场检测系统对领域变化的敏感性与泛化能力不足。

常用场景

经典使用场景

在自然语言处理领域，立场检测作为一项关键任务，对于理解社交媒体中的用户观点具有深远意义。Will-They-Won’t-They数据集以其大规模、高质量的专家标注特性，成为立场检测研究的经典基准。该数据集聚焦于推特平台上关于企业并购事件的讨论，通过支持、反驳、评论及无关四类标签，精准捕捉用户对特定目标的立场倾向。其经典使用场景在于为立场检测模型提供训练与评估平台，尤其在金融领域的谣言验证任务中，该数据集通过模拟真实世界并购案例，使得研究者能够深入分析市场舆论的演变过程，从而推动立场检测技术在复杂语境下的性能提升。

实际应用

在现实应用中，Will-They-Won’t-They数据集为金融市场的舆情监控与风险管理提供了有力工具。通过分析推特用户对企业并购事件的立场，该数据集能够辅助投资者与分析师洞察市场情绪波动，预测并购结果的潜在影响。例如，在医疗与娱乐行业的并购案例中，立场检测模型可实时追踪公众支持与质疑的声音，为决策者提供早期风险预警。此外，该数据集的应用延伸至政策监管领域，帮助机构识别并应对虚假信息的传播，从而维护市场稳定与公众信任。

衍生相关工作

Will-They-Won’t-They数据集的发布催生了一系列立场检测领域的创新研究。基于该数据集，学者们探索了多种先进模型架构，如Siamese网络、层次注意力网络及跨目标注意力机制，这些工作显著提升了立场分类的准确性与可解释性。同时，该数据集的多领域特性激发了跨领域适应性的研究浪潮，推动了模型在金融与娱乐等不同语境下的迁移学习。相关经典工作不仅验证了数据集的挑战性，还为立场检测与自然语言处理的交叉研究开辟了新方向，促进了学术成果向实际应用的转化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集