allenai/qasc

Hugging Face2024-01-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/allenai/qasc

下载链接

链接失效反馈

资源简介：

QASC是一个专注于句子组合的问答数据集，包含9,980个关于小学科学的8项选择题（8,134个训练样本，926个开发样本，920个测试样本），并附带一个包含1700万句子的语料库。数据集的结构包括id、问题、选项、答案、事实1、事实2、组合事实和格式化问题等字段。

提供机构：

allenai

原始信息汇总

数据集概述

基本信息

名称: Question Answering via Sentence Composition (QASC)
语言: 英语 (en)
许可证: CC BY 4.0
多语言性: 单语种
数据来源: 原始数据
任务类别: 问答 (question-answering), 多选题 (multiple-choice)
任务ID: 抽取式问答 (extractive-qa), 多选题问答 (multiple-choice-qa)
数据集大小: 1K<n<10K

数据集结构

特征:
- id: 字符串类型
- question: 字符串类型
- choices: 字典类型，包含 text (字符串类型) 和 label (字符串类型)
- answerKey: 字符串类型
- fact1: 字符串类型
- fact2: 字符串类型
- combinedfact: 字符串类型
- formatted_question: 字符串类型
数据分割:
- train: 8134 条记录
- test: 920 条记录
- validation: 926 条记录

数据集创建

注释创建者: 众包
语言创建者: 发现

使用考虑

许可证: 数据集根据 CC BY 4.0 许可发布。

引用信息

@article{allenai:qasc, author = {Tushar Khot and Peter Clark and Michal Guerquin and Peter Jansen and Ashish Sabharwal}, title = {QASC: A Dataset for Question Answering via Sentence Composition}, journal = {arXiv:1910.11473v2}, year = {2020}, }

搜集汇总

数据集介绍

构建方式

QASC数据集的构建以众包的形式进行，其源数据为原始数据集，并通过人工注释的方式生成答案及相关的科学事实。数据集包含了多个选择的问题和对应的答案，以及支持这些答案的科学事实。构建过程中，问题设计围绕学校科学知识，旨在通过句子组合的形式进行问题的回答。

特点

QASC数据集的特点在于，它专注于通过句子组合的方式进行问题回答，提供了一种新的问题回答任务形式。数据集包含9980个8选1的问题，涵盖了学校科学知识，并伴有1700万句子的语料库。此外，每个问题都附带了两个科学事实，以及由这两个事实组合而成的答案选项。

使用方法

使用QASC数据集时，用户可以根据数据集提供的train、validation、test三个数据 split进行模型的训练和评估。每个数据实例包含了问题的ID、问题文本、选项（包括文本和标签）、答案关键字、相关事实以及格式化问题。用户可以根据这些信息进行问题回答模型的开发和测试。

背景与挑战

背景概述

QASC数据集，全称为Question Answering via Sentence Composition，是由Allen AI团队开发的一个问题回答数据集。该数据集创建于2020年，主要研究人员包括Tushar Khot、Peter Clark等人。QASC的核心研究问题是通过句子组合的方式进行问题回答，旨在推动自然语言处理领域的发展。该数据集由9980个8选1的问题组成，内容涉及小学科学知识，并附带了一个包含1700万句子的语料库。QASC数据集的发布对于提升问题回答系统在理解和生成自然语言句子方面的性能具有重要意义，对相关领域产生了积极的影响。

当前挑战

QASC数据集在构建过程中遇到的挑战主要包括如何确保问题与选项的设计既能反映科学知识，又能考察句子的组合能力。此外，数据集的构建还面临如何平衡问题难度、保持选项的有效性和区分度等问题。在应用层面，该数据集的使用者需要解决如何准确理解和提取问题中的关键信息，以及如何在多个选项中有效筛选出正确答案的挑战。同时，数据集可能存在的偏差和局限性也是使用者在研究和应用中需要注意的问题。

常用场景

经典使用场景

在自然语言处理领域，QASC数据集被广泛用于研究和评估基于句子组合的问题回答任务。该数据集提供了一个独特的平台，使得研究者能够在细粒度层面上理解模型如何通过组合句子来生成答案，进而提高问题回答的准确性和深度。

解决学术问题

QASC数据集解决了传统问题回答数据集中缺乏上下文信息的问题，其设计允许研究者探索模型在理解复杂科学概念时的能力。这对于提升模型在处理非事实性问题和理解长篇文本的能力具有显著意义，为学术研究提供了新的视角和工具。

衍生相关工作

基于QASC数据集，研究者已经开展了一系列相关工作，包括但不限于探索更高效的句子组合模型、分析模型在不同类型问题上的表现差异，以及研究数据集本身的多样性和平衡性，这些工作进一步推动了问题回答领域的研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集