ucsbnlp/tweet_qa|社交媒体数据集|问答系统数据集
收藏数据集概述
数据集描述
数据集摘要
TweetQA是一个专注于社交媒体数据的大规模问答数据集。该数据集收集了记者用于撰写新闻文章的推文,并由人工标注者在这些推文上编写问题和答案。与传统的抽取式问答数据集不同,TweetQA允许答案是抽象的,即答案不必是推文中的原文。
支持的任务和排行榜
- 任务类别: 问答
- 任务ID: 开放领域问答
- 评估指标: BLEU-1, Meteor, ROUGE-L
- 排行榜: TweetQA Leaderboard
语言
英语。
数据集结构
数据实例
示例数据: json { "Question": "who is the tallest host?", "Answer": ["sam bee","sam bee"], "Tweet": "Dont believe @ConanOBriens height lies. Sam Bee is the tallest host in late night. #alternativefactsu2014 Full Frontal (@FullFrontalSamB) January 22, 2017", "qid": "3554ee17d86b678be34c4dc2c04e334f" }
数据字段
Question
: 基于推文信息的问题Answer
: 推文中的可能答案列表Tweet
: 源推文qid
: 问题ID
数据分割
数据集分为训练集、验证集和测试集:
- 训练集: 10692个样本
- 验证集: 1086个样本
- 测试集: 1979个样本
数据集创建
策划理由
随着社交媒体在新闻和实时事件报道中的日益普及,开发自动问答系统对于依赖实时知识的许多应用程序的有效性至关重要。尽管之前的问答数据集主要集中在新闻和维基百科等正式文本上,但TweetQA是第一个大规模的社交媒体数据问答数据集。
源数据
初始数据收集和规范化
作者从CNN和NBC两个主要新闻网站的存档快照中提取嵌入在新闻文章中的推文块。为了获得足够的数据,他们首先从每个主页的快照中提取所有部分页面(如世界、政治、金钱、科技)的URL,然后从这些部分页面中爬取所有带有推文的文章。然后,他们使用语义角色标注模型过滤掉依赖附加媒体传达信息的推文。
源语言生产者
推特用户。
标注
标注过程
使用Amazon Mechanical Turk工人收集过滤后的推文的问答对。每个任务要求工人阅读三条推文并为每条推文编写两个问答对。为了确保质量,要求工人位于主要英语国家(加拿大、美国、英国)并且接受率大于95%。
标注者
Amazon Mechanical Turk工人。
使用数据的注意事项
数据集的社会影响
[更多信息需要]
偏见讨论
数据收集自社交媒体,不仅捕捉实时事件和发展,还捕捉个人观点,因此需要与内容作者相关的推理技能。
其他已知限制
[更多信息需要]
附加信息
数据集策展人
Xiong, Wenhan 和 Wu, Jiawei 和 Wang, Hong 和 Kulkarni, Vivek 和 Yu, Mo 和 Guo, Xiaoxiao 和 Chang, Shiyu 和 Wang, William Yang.
许可信息
CC BY-SA 4.0.
引用信息
@inproceedings{xiong2019tweetqa, title={TweetQA: A Social Media Focused Question Answering Dataset}, author={Xiong, Wenhan and Wu, Jiawei and Wang, Hong and Kulkarni, Vivek and Yu, Mo and Guo, Xiaoxiao and Chang, Shiyu and Wang, William Yang}, booktitle={Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics}, year={2019} }
贡献
感谢@anaerobeth添加此数据集。
中国区域地面气象要素驱动数据集 v2.0(1951-2024)
中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 74 年(1951~2024 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。
国家青藏高原科学数据中心 收录
MultiTalk
MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。
arXiv 收录
laion/open-access-papers
该数据集包含从CORE(core.ac.uk)收集的开放获取学术论文,涵盖不同学科的出版物。每个数据实例代表一篇学术论文,包含唯一标识符、URL、详细的元数据(如DOI、标题、作者、出版日期等)以及全文的路径(如果可用)。数据集的主要语言是英语,但也可能包含其他语言的论文。数据集以WebDataset格式提供,便于流式处理。
hugging_face 收录
ECNU-SEA/SEA_data
该数据集包含四种类型的文件:原始PDF格式的论文、通过Nougat解析后的mmd文件、爬取的原始评审文本以及处理后的评审JSON文件。数据集来源于OpenReview,包括NeurIPS-2023和ICLR-2024的最新论文及其评审。
hugging_face 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录