five

allenai/qasc|自然语言处理数据集|教育数据集

收藏
hugging_face2024-01-04 更新2024-03-04 收录
自然语言处理
教育
下载链接:
https://hf-mirror.com/datasets/allenai/qasc
下载链接
链接失效反馈
资源简介:
QASC是一个专注于句子组合的问答数据集,包含9,980个关于小学科学的8项选择题(8,134个训练样本,926个开发样本,920个测试样本),并附带一个包含1700万句子的语料库。数据集的结构包括id、问题、选项、答案、事实1、事实2、组合事实和格式化问题等字段。
提供机构:
allenai
原始信息汇总

数据集概述

基本信息

  • 名称: Question Answering via Sentence Composition (QASC)
  • 语言: 英语 (en)
  • 许可证: CC BY 4.0
  • 多语言性: 单语种
  • 数据来源: 原始数据
  • 任务类别: 问答 (question-answering), 多选题 (multiple-choice)
  • 任务ID: 抽取式问答 (extractive-qa), 多选题问答 (multiple-choice-qa)
  • 数据集大小: 1K<n<10K

数据集结构

  • 特征:

    • id: 字符串类型
    • question: 字符串类型
    • choices: 字典类型,包含 text (字符串类型) 和 label (字符串类型)
    • answerKey: 字符串类型
    • fact1: 字符串类型
    • fact2: 字符串类型
    • combinedfact: 字符串类型
    • formatted_question: 字符串类型
  • 数据分割:

    • train: 8134 条记录
    • test: 920 条记录
    • validation: 926 条记录

数据集创建

  • 注释创建者: 众包
  • 语言创建者: 发现

使用考虑

  • 许可证: 数据集根据 CC BY 4.0 许可发布。

引用信息

@article{allenai:qasc, author = {Tushar Khot and Peter Clark and Michal Guerquin and Peter Jansen and Ashish Sabharwal}, title = {QASC: A Dataset for Question Answering via Sentence Composition}, journal = {arXiv:1910.11473v2}, year = {2020}, }

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MultiTalk

MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

Asteroids by the Minor Planet Center

包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center,格式包括Fortran (.DAT)和JSON,数据集大小为81MB(压缩)和450MB(未压缩),记录数约750,000条,每日更新。

github 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

CMAB

CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。

arXiv 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录