QUASAR (QUestion Answering by Search And Reading)

Name: QUASAR (QUestion Answering by Search And Reading)
Creator: OpenDataLab
Published: 2026-05-31 09:30:23
License: 暂无描述

OpenDataLab2026-05-31 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/QUASAR

下载链接

链接失效反馈

官方服务：

资源简介：

搜索和阅读问答（QUASAR）是一个由QUASAR-S和QUASAR-T组成的大规模数据集。这些数据集中的每一个都旨在专注于评估旨在理解自然语言查询、大量文本语料库并从语料库中提取问题答案的系统。具体来说，QUASAR-S 包含 37,012 个填空题，这些问题是使用实体标签从流行的网站 Stack Overflow 收集的。 QUASAR-T 数据集包含从各种互联网资源收集的 43,012 个开放域问题。该数据集中每个问题的候选文档是从基于 Apache Lucene 的搜索引擎中检索的，该搜索引擎构建在 ClueWeb09 数据集之上。

Search and Reading Question Answering (QUASAR) is a large-scale dataset composed of QUASAR-S and QUASAR-T. Each of these datasets aims to evaluate systems designed to understand natural language queries, process large text corpora, and extract answers to questions from the corpora. Specifically, QUASAR-S contains 37,012 fill-in-the-blank questions collected from the popular website Stack Overflow using entity tags. The QUASAR-T dataset includes 43,012 open-domain questions collected from various Internet resources. The candidate documents for each question in this dataset are retrieved from an Apache Lucene-based search engine built on the ClueWeb09 dataset.

提供机构：

OpenDataLab

创建时间：

2022-08-16

搜集汇总

数据集介绍

背景与挑战

背景概述

QUASAR是一个大规模问答数据集，包含QUASAR-S和QUASAR-T两个子集，分别提供37,012个填空题和43,012个开放域问题，用于评估系统在自然语言查询理解和文本检索方面的能力。该数据集基于Stack Overflow和互联网资源构建，候选文档从ClueWeb09数据集中检索，由卡内基梅隆大学于2017年发布。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集