ucsbnlp/tweet_qa
收藏数据集概述
数据集描述
数据集摘要
TweetQA是一个专注于社交媒体数据的大规模问答数据集。该数据集收集了记者用于撰写新闻文章的推文,并由人工标注者在这些推文上编写问题和答案。与传统的抽取式问答数据集不同,TweetQA允许答案是抽象的,即答案不必是推文中的原文。
支持的任务和排行榜
- 任务类别: 问答
- 任务ID: 开放领域问答
- 评估指标: BLEU-1, Meteor, ROUGE-L
- 排行榜: TweetQA Leaderboard
语言
英语。
数据集结构
数据实例
示例数据: json { "Question": "who is the tallest host?", "Answer": ["sam bee","sam bee"], "Tweet": "Dont believe @ConanOBriens height lies. Sam Bee is the tallest host in late night. #alternativefactsu2014 Full Frontal (@FullFrontalSamB) January 22, 2017", "qid": "3554ee17d86b678be34c4dc2c04e334f" }
数据字段
Question: 基于推文信息的问题Answer: 推文中的可能答案列表Tweet: 源推文qid: 问题ID
数据分割
数据集分为训练集、验证集和测试集:
- 训练集: 10692个样本
- 验证集: 1086个样本
- 测试集: 1979个样本
数据集创建
策划理由
随着社交媒体在新闻和实时事件报道中的日益普及,开发自动问答系统对于依赖实时知识的许多应用程序的有效性至关重要。尽管之前的问答数据集主要集中在新闻和维基百科等正式文本上,但TweetQA是第一个大规模的社交媒体数据问答数据集。
源数据
初始数据收集和规范化
作者从CNN和NBC两个主要新闻网站的存档快照中提取嵌入在新闻文章中的推文块。为了获得足够的数据,他们首先从每个主页的快照中提取所有部分页面(如世界、政治、金钱、科技)的URL,然后从这些部分页面中爬取所有带有推文的文章。然后,他们使用语义角色标注模型过滤掉依赖附加媒体传达信息的推文。
源语言生产者
推特用户。
标注
标注过程
使用Amazon Mechanical Turk工人收集过滤后的推文的问答对。每个任务要求工人阅读三条推文并为每条推文编写两个问答对。为了确保质量,要求工人位于主要英语国家(加拿大、美国、英国)并且接受率大于95%。
标注者
Amazon Mechanical Turk工人。
使用数据的注意事项
数据集的社会影响
[更多信息需要]
偏见讨论
数据收集自社交媒体,不仅捕捉实时事件和发展,还捕捉个人观点,因此需要与内容作者相关的推理技能。
其他已知限制
[更多信息需要]
附加信息
数据集策展人
Xiong, Wenhan 和 Wu, Jiawei 和 Wang, Hong 和 Kulkarni, Vivek 和 Yu, Mo 和 Guo, Xiaoxiao 和 Chang, Shiyu 和 Wang, William Yang.
许可信息
CC BY-SA 4.0.
引用信息
@inproceedings{xiong2019tweetqa, title={TweetQA: A Social Media Focused Question Answering Dataset}, author={Xiong, Wenhan and Wu, Jiawei and Wang, Hong and Kulkarni, Vivek and Yu, Mo and Guo, Xiaoxiao and Chang, Shiyu and Wang, William Yang}, booktitle={Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics}, year={2019} }
贡献
感谢@anaerobeth添加此数据集。




