drt/kqa_pro|知识库问答数据集|推理能力数据集
收藏数据集概述
数据集名称
- 名称: KQA-Pro
数据集特征
- 语言: 英语
- 许可证: MIT
- 多语言性: 单语
- 大小: 10K<n<100K
- 源数据集: 原始
- 标签: 知识图谱, Freebase
- 任务类别: 问答
- 任务ID: open-domain-qa
注释创建者
- 机器生成
- 专家生成
数据集描述
数据集总结
- 描述: KQA Pro是一个大规模的知识库复杂问答数据集,包含多样且具有挑战性的问题,需要多种推理能力,如组合推理、多跳推理、定量比较、集合操作等。每个问题都提供了SPARQL和程序的强监督。
支持的任务和排行榜
- 支持任务: 知识图谱基础的问答
- 特点: 为每个问题提供SPARQL和程序
数据集结构
数据配置
- 配置:
train_val
和test
数据分割
- 分割: 训练集, 验证集, 测试集
数据文件格式
- 训练集/验证集: 包含问题、SPARQL、程序、选项和答案
- 测试集: 包含问题和选项
附加信息
知识图谱文件
- 文件:
kb.json
- 格式: 包含概念、实体及其属性和关系
如何运行SPARQL和程序
- 实现: 在代码库中实现,包括SPARQL解析器和程序解析器
如何提交测试集结果
- 提交方式: 通过电子邮件发送预测答案文件,并提供模型信息
许可证信息
- 许可证: MIT License
引用信息
- 引用格式:
@inproceedings{KQAPro, title={{KQA P}ro: A Large Diagnostic Dataset for Complex Question Answering over Knowledge Base}, author={Cao, Shulin and Shi, Jiaxin and Pan, Liangming and Nie, Lunyiu and Xiang, Yutong and Hou, Lei and Li, Juanzi and He, Bin and Zhang, Hanwang}, booktitle={ACL22}, year={2022} }
中国高考录取分数线数据
高考录取分数线,是指普通高等学校招生全国统一考试录取分数线。该分数线,每年高考结束后,由省级教育招生主管部门统计后公布。高考录取分数线分为本科线和专科线。全国各个地方的录取线分科类、分批次确定,科类一般分为文科类、理科类、音乐类(文、理)、美术类(文、理)、体育类等,每一科类又各分为提前批、第一批、第二批等等。 CnOpenData推出中国高考录取分数线数据,从批次、学校、专业等三方面汇总高考录取情况,涵盖生源地、学校所在地、年份、分类、批次、分科、分数线、学校、专业、录取人数、最高/低分等字段,为相关研究提供优质的数据资源。
CnOpenData 收录
UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
poi
本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。
github 收录
VisDrone2019
VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。
github 收录
ChemBL
ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。
www.ebi.ac.uk 收录