five

TWEETQA

收藏
arXiv2019-07-15 更新2024-06-21 收录
下载链接:
https://tweetqa.github.io/
下载链接
链接失效反馈
官方服务:
资源简介:
TWEETQA是首个专注于社交媒体上下文的问题回答数据集,由加州大学圣塔芭芭拉分校和IBM研究团队创建。该数据集包含13,757条问题-答案对,数据来源于新闻文章中引用的推文。数据集创建过程中,通过爬虫技术从新闻网站获取推文,并利用众包方式收集问题和答案。TWEETQA旨在解决社交媒体文本的自动理解问题,特别是在实时事件和新闻报道中的应用,挑战在于处理非正式语言和社交媒体特有的表达方式。

TWEETQA is the first question answering dataset dedicated to social media contexts, developed by a research team from the University of California, Santa Barbara and IBM Research. This dataset contains 13,757 question-answer pairs, sourced from tweets cited in news articles. During the dataset construction, tweets were obtained from news websites via web crawling, and questions and answers were collected through crowdsourcing. TWEETQA aims to address automatic understanding of social media text, particularly for applications in real-time events and news reporting. The core challenge lies in handling informal language and platform-specific expressions unique to social media.
提供机构:
加州大学圣塔芭芭拉分校
创建时间:
2019-07-15
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作