QED|语言学数据集|问答系统数据集
收藏数据集概述
数据集名称
QED: A Framework and Dataset for Explanations in Question Answering
数据集作者
Matthew Lamm, Jennimaria Palomaki, Chris Alberti, Daniel Andor, Eunsol Choi, Livio Baldini Soares, Michael Collins
数据集年份
2020
数据集描述
QED是一个用于问答中解释的语言学原则框架。它将答案解释表示为一系列离散、可被人理解的人类可解释步骤,包括句子选择、指称等同和谓词蕴涵。
数据集组成
- 训练集: 7638个例子
- 验证集: 1355个例子
数据格式
数据以JSON Lines格式分布,每个文件包含一个QED示例。
数据集示例结构
每个QED示例包含以下字段:
- example_id: 唯一整数标识符,与Natural Questions数据集匹配
- title_text: 包含段落的维基百科页面标题
- url: 包含段落的维基百科页面URL
- question_text: 来自Natural Questions的自然语言问题字符串
- paragraph_text: 包含问题答案的维基百科页面段落字符串
- sentence_starts: 段落中句子起始的字符偏移列表
- original_nq_answers: Natural Questions中的原始短答案跨度
- annotation: QED注释,包含referential_equalities、answer、selected_sentence和explanation_type等字段
注释格式
QED注释中的每个元素,除了explanation_type外,由一个或多个跨度字典组成,至少包含start、end和string字段。
解释类型
QED中的每个实例根据其解释类型被标记为以下之一:
- single_sentence: 存在短答案和有效的QED风格解释
- multi_sentence: 存在有效短答案,但解释需要超过一个句子
- none: Natural Questions标记了答案,但QED注释者发现实际上没有正确答案
解释类型分布
Train | Dev | |
---|---|---|
single_sentence | 5,154 | 1,021 |
multi_sentence | 1,702 | 183 |
none | 782 | 151 |
数据来源
所有输入数据来自维基百科,根据Creative Commons Attribution-ShareAlike 3.0 Unported License (CC BY-SA)和GNU Free Documentation License (GFDL)授权公开使用。
评估脚本
提供了一个官方评估脚本qed_eval.py
,用于比较验证集上的结果。该脚本期望一个预测文件,其格式与上述输入文件相同,但注释部分被预测值替换。

Materials Project 在线材料数据库
Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。
超神经 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
MultiTalk
MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。
arXiv 收录
12306车次数据库
本数据库包含12306车次相关的详细信息,如车次代码、车站代码、列车基本信息和时刻表信息等。数据已按车次等级整理,并提供多种格式的数据文件,方便用户根据实际需求调用。
github 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录