ucsbnlp/tweet_qa

Name: ucsbnlp/tweet_qa
Creator: ucsbnlp
Published: 2024-01-24 08:53:20
License: 暂无描述

Hugging Face2024-01-24 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/ucsbnlp/tweet_qa

下载链接

链接失效反馈

官方服务：

资源简介：

TweetQA是一个专注于社交媒体数据的问答数据集，旨在开发基于实时知识的自动问答系统。与以往专注于新闻和维基百科等正式文本的问答数据集不同，TweetQA首次大规模地使用了社交媒体数据（特别是Twitter）作为问答的上下文。数据集中的推文是从新闻文章中提取的，确保其包含有意义和有趣的信息。人工注释者被要求基于这些推文编写问题和答案，且答案允许是抽象性的，而不仅仅是从推文中提取的。数据集包含训练集、验证集和测试集，分别包含10692、1086和1979个样本。每个样本包含一个问题、答案列表、源推文和问题ID。

TweetQA is a question answering dataset focused on social media data, designed to develop real-time knowledge-based automatic question answering systems. Unlike prior QA datasets that concentrate on formal texts such as news articles and Wikipedia, TweetQA is the first large-scale dataset to utilize social media data (particularly Twitter) as the context for question answering. The tweets included in the dataset are extracted from news articles, ensuring they carry meaningful and engaging information. Human annotators are tasked with composing questions and answers based on these tweets, and the answers are permitted to be abstract rather than merely extracted directly from the source tweets. The dataset is split into training, validation, and test sets, which contain 10692, 1086, and 1979 samples respectively. Each sample comprises a question, an answer list, the source tweet, and a question ID.

提供机构：

ucsbnlp

原始信息汇总

数据集概述

数据集描述

数据集摘要

TweetQA是一个专注于社交媒体数据的大规模问答数据集。该数据集收集了记者用于撰写新闻文章的推文，并由人工标注者在这些推文上编写问题和答案。与传统的抽取式问答数据集不同，TweetQA允许答案是抽象的，即答案不必是推文中的原文。

支持的任务和排行榜

任务类别: 问答
任务ID: 开放领域问答
评估指标: BLEU-1, Meteor, ROUGE-L
排行榜: TweetQA Leaderboard

语言

英语。

数据集结构

数据实例

示例数据： json { "Question": "who is the tallest host?", "Answer": ["sam bee","sam bee"], "Tweet": "Dont believe @ConanOBriens height lies. Sam Bee is the tallest host in late night. #alternativefactsu2014 Full Frontal (@FullFrontalSamB) January 22, 2017", "qid": "3554ee17d86b678be34c4dc2c04e334f" }

数据字段

Question: 基于推文信息的问题
Answer: 推文中的可能答案列表
Tweet: 源推文
qid: 问题ID

数据分割

数据集分为训练集、验证集和测试集：

训练集: 10692个样本
验证集: 1086个样本
测试集: 1979个样本

数据集创建

策划理由

随着社交媒体在新闻和实时事件报道中的日益普及，开发自动问答系统对于依赖实时知识的许多应用程序的有效性至关重要。尽管之前的问答数据集主要集中在新闻和维基百科等正式文本上，但TweetQA是第一个大规模的社交媒体数据问答数据集。

源数据

初始数据收集和规范化

作者从CNN和NBC两个主要新闻网站的存档快照中提取嵌入在新闻文章中的推文块。为了获得足够的数据，他们首先从每个主页的快照中提取所有部分页面（如世界、政治、金钱、科技）的URL，然后从这些部分页面中爬取所有带有推文的文章。然后，他们使用语义角色标注模型过滤掉依赖附加媒体传达信息的推文。

源语言生产者

推特用户。

标注

标注过程

使用Amazon Mechanical Turk工人收集过滤后的推文的问答对。每个任务要求工人阅读三条推文并为每条推文编写两个问答对。为了确保质量，要求工人位于主要英语国家（加拿大、美国、英国）并且接受率大于95%。

标注者

Amazon Mechanical Turk工人。

使用数据的注意事项

数据集的社会影响

[更多信息需要]

偏见讨论

数据收集自社交媒体，不仅捕捉实时事件和发展，还捕捉个人观点，因此需要与内容作者相关的推理技能。

其他已知限制

[更多信息需要]

附加信息

数据集策展人

Xiong, Wenhan 和 Wu, Jiawei 和 Wang, Hong 和 Kulkarni, Vivek 和 Yu, Mo 和 Guo, Xiaoxiao 和 Chang, Shiyu 和 Wang, William Yang.

许可信息

CC BY-SA 4.0.

引用信息

@inproceedings{xiong2019tweetqa, title={TweetQA: A Social Media Focused Question Answering Dataset}, author={Xiong, Wenhan and Wu, Jiawei and Wang, Hong and Kulkarni, Vivek and Yu, Mo and Guo, Xiaoxiao and Chang, Shiyu and Wang, William Yang}, booktitle={Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics}, year={2019} }

贡献

感谢@anaerobeth添加此数据集。

搜集汇总

数据集介绍

构建方式

在社交媒体信息爆炸的时代，实时知识获取对问答系统提出了新的挑战。TweetQA数据集的构建始于从CNN和NBC新闻网站的文章中提取嵌入的推文，确保内容具有新闻价值。通过语义角色标注模型筛选出信息丰富的推文，保留包含多个谓词-论元结构的样本。随后，借助亚马逊众包平台，邀请来自英语国家的标注者基于推文撰写问题与答案。标注过程中，要求问题至少包含五个单词，避免是否类问题，且答案允许抽象概括，无需严格提取自原文。最终经过后过滤，剔除不符合要求的样本，形成了包含万余条推文与问答对的大规模数据集。

特点

作为首个专注于社交媒体的大规模问答数据集，TweetQA的独特之处在于其语境源自非正式的推文文本，涵盖了新闻事件、公众意见等实时信息。数据集中的问题与答案均以抽象形式呈现，不局限于原文提取，这要求模型具备深层语义理解与推理能力。推文常包含用户ID、话题标签及口语化表达，使得问答任务需处理社交媒体特有的语言现象，如作者身份理解与特殊符号解析。数据规模适中，包含训练、验证与测试分割，为开放域问答研究提供了贴近实际应用的评估基准。

使用方法

TweetQA适用于开放域问答任务的模型训练与评估，旨在推动对社交媒体文本的理解技术。使用者可通过HuggingFace平台直接加载数据集，按照标准分割进行实验。模型需接收推文与问题作为输入，生成文本短语作为答案，评估指标包括BLEU-1、Meteor和ROUGE-L，以衡量生成答案与人工标注之间的相似度。数据集中测试集的答案字段为空，便于进行独立预测与提交至官方排行榜。鉴于推文可能包含个人观点与非正式语言，使用时需注意潜在偏见，并遵循CC BY-SA 4.0许可协议。

背景与挑战

背景概述

在社交媒体日益普及的背景下，大量新闻与实时事件通过此类平台传播，开发自动化问答系统对依赖实时知识的应用至关重要。TweetQA数据集由加州大学圣塔芭芭拉分校的研究团队于2019年创建，旨在填补社交媒体领域问答数据集的空白。该数据集从新闻网站嵌入的推文中筛选信息，通过众包方式构建问题与答案对，其核心研究问题聚焦于非正式、实时性文本的理解与抽象答案生成。作为首个大规模社交媒体问答数据集，TweetQA推动了自然语言处理在开放域问答任务中的发展，尤其对理解口语化表达、用户身份及话题标签等社交媒体特有元素具有重要影响力。

当前挑战

TweetQA数据集所解决的领域问题在于社交媒体文本的开放域问答，其挑战主要源于推文的非正式性、实时性及信息密度低等特性。模型需应对口语化表达、隐含上下文理解以及作者意图推断等复杂语义任务，而非简单依赖文本匹配。在构建过程中，研究团队面临数据筛选的难题，例如需通过语义角色标注过滤依赖多媒体信息的推文，并确保问题质量以避免琐碎或过度依赖背景知识。此外，答案的抽象性要求增加了标注一致性难度，尽管通过严格的后过滤流程，仍存在部分答案语义不一致的问题，这反映了社交媒体数据在标准化标注方面的固有挑战。

常用场景

经典使用场景

在社交媒体信息爆炸的时代，TweetQA数据集为自然语言处理领域提供了一个独特的问答任务平台。该数据集的核心应用场景在于训练和评估模型对推特文本的理解与推理能力，要求模型基于简短且非正式的推文内容，生成抽象式答案以回应用户提出的问题。这一设定模拟了真实社交环境中信息提取与整合的挑战，推动了开放域问答技术向更贴近日常交流语境的演进。

实际应用

在实际应用层面，TweetQA支撑的问答技术可广泛应用于实时新闻摘要、社交媒体监控与智能客服系统。例如，在突发事件报道中，系统能快速解析推文内容并自动回答公众关切，提升信息传播效率；在企业舆情分析中，可帮助识别用户讨论焦点并生成针对性回应。这些应用显著增强了基于社交媒体的知识服务能力，为依赖实时信息的决策支持提供了技术保障。

衍生相关工作

围绕TweetQA数据集，学术界衍生出一系列经典研究工作，包括针对社交媒体语言的预训练模型优化、多模态推理框架的探索以及对抗噪声的鲁棒性学习方法。例如，部分研究通过引入推特特有的语义角色标注增强上下文理解，另一些工作则融合外部知识库以处理推文中隐含的背景信息。这些成果不仅提升了在TweetQA排行榜上的性能指标，也为更广泛的社交媒体自然语言处理任务提供了方法论借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集