five

drt/kqa_pro|知识库问答数据集|推理能力数据集

收藏
hugging_face2022-10-20 更新2024-03-04 收录
知识库问答
推理能力
下载链接:
https://hf-mirror.com/datasets/drt/kqa_pro
下载链接
链接失效反馈
资源简介:
KQA Pro是一个大规模的知识库复杂问答数据集,问题多样且具有挑战性,需要多种推理能力,包括组合推理、多跳推理、定量比较、集合操作等。每个问题都提供了SPARQL和程序的强监督。数据集支持基于知识图谱的问答任务,并提供了SPARQL和程序。数据集的语言为英语,结构包括训练集、验证集和测试集,格式为JSON。此外,数据集还提供了知识图谱文件的格式、如何运行SPARQL和程序、如何提交测试集结果、许可证信息、引用信息和贡献者信息。
提供机构:
drt
原始信息汇总

数据集概述

数据集名称

  • 名称: KQA-Pro

数据集特征

  • 语言: 英语
  • 许可证: MIT
  • 多语言性: 单语
  • 大小: 10K<n<100K
  • 源数据集: 原始
  • 标签: 知识图谱, Freebase
  • 任务类别: 问答
  • 任务ID: open-domain-qa

注释创建者

  • 机器生成
  • 专家生成

数据集描述

数据集总结

  • 描述: KQA Pro是一个大规模的知识库复杂问答数据集,包含多样且具有挑战性的问题,需要多种推理能力,如组合推理、多跳推理、定量比较、集合操作等。每个问题都提供了SPARQL和程序的强监督。

支持的任务和排行榜

  • 支持任务: 知识图谱基础的问答
  • 特点: 为每个问题提供SPARQL和程序

数据集结构

数据配置

  • 配置: train_valtest

数据分割

  • 分割: 训练集, 验证集, 测试集

数据文件格式

  • 训练集/验证集: 包含问题、SPARQL、程序、选项和答案
  • 测试集: 包含问题和选项

附加信息

知识图谱文件

  • 文件: kb.json
  • 格式: 包含概念、实体及其属性和关系

如何运行SPARQL和程序

  • 实现: 在代码库中实现,包括SPARQL解析器和程序解析器

如何提交测试集结果

  • 提交方式: 通过电子邮件发送预测答案文件,并提供模型信息

许可证信息

  • 许可证: MIT License

引用信息

  • 引用格式:

@inproceedings{KQAPro, title={{KQA P}ro: A Large Diagnostic Dataset for Complex Question Answering over Knowledge Base}, author={Cao, Shulin and Shi, Jiaxin and Pan, Liangming and Nie, Lunyiu and Xiang, Yutong and Hou, Lei and Li, Juanzi and He, Bin and Zhang, Hanwang}, booktitle={ACL22}, year={2022} }

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国高考录取分数线数据

  高考录取分数线,是指普通高等学校招生全国统一考试录取分数线。该分数线,每年高考结束后,由省级教育招生主管部门统计后公布。高考录取分数线分为本科线和专科线。全国各个地方的录取线分科类、分批次确定,科类一般分为文科类、理科类、音乐类(文、理)、美术类(文、理)、体育类等,每一科类又各分为提前批、第一批、第二批等等。  CnOpenData推出中国高考录取分数线数据,从批次、学校、专业等三方面汇总高考录取情况,涵盖生源地、学校所在地、年份、分类、批次、分科、分数线、学校、专业、录取人数、最高/低分等字段,为相关研究提供优质的数据资源。

CnOpenData 收录

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

ChemBL

ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。

www.ebi.ac.uk 收录