five

QUASAR (QUestion Answering by Search And Reading)

收藏
OpenDataLab2026-05-31 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/QUASAR
下载链接
链接失效反馈
官方服务:
资源简介:
搜索和阅读问答(QUASAR)是一个由QUASAR-S和QUASAR-T组成的大规模数据集。这些数据集中的每一个都旨在专注于评估旨在理解自然语言查询、大量文本语料库并从语料库中提取问题答案的系统。具体来说,QUASAR-S 包含 37,012 个填空题,这些问题是使用实体标签从流行的网站 Stack Overflow 收集的。 QUASAR-T 数据集包含从各种互联网资源收集的 43,012 个开放域问题。该数据集中每个问题的候选文档是从基于 Apache Lucene 的搜索引擎中检索的,该搜索引擎构建在 ClueWeb09 数据集之上。

Search and Reading Question Answering (QUASAR) is a large-scale dataset composed of QUASAR-S and QUASAR-T. Each of these datasets aims to evaluate systems designed to understand natural language queries, process large text corpora, and extract answers to questions from the corpora. Specifically, QUASAR-S contains 37,012 fill-in-the-blank questions collected from the popular website Stack Overflow using entity tags. The QUASAR-T dataset includes 43,012 open-domain questions collected from various Internet resources. The candidate documents for each question in this dataset are retrieved from an Apache Lucene-based search engine built on the ClueWeb09 dataset.
提供机构:
OpenDataLab
创建时间:
2022-08-16
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
QUASAR是一个大规模问答数据集,包含QUASAR-S和QUASAR-T两个子集,分别提供37,012个填空题和43,012个开放域问题,用于评估系统在自然语言查询理解和文本检索方面的能力。该数据集基于Stack Overflow和互联网资源构建,候选文档从ClueWeb09数据集中检索,由卡内基梅隆大学于2017年发布。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作