cmalaviya/quest

Name: cmalaviya/quest
Creator: cmalaviya
Published: 2023-12-31 03:13:28
License: 暂无描述

Hugging Face2023-12-31 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/cmalaviya/quest

下载链接

链接失效反馈

官方服务：

资源简介：

QUEST数据集是一个用于实体检索查询的数据集，包含隐式集合操作。数据集包含6307个训练查询、323个开发示例和1727个测试示例。每个示例文件包含以换行符分隔的JSON字典，字段包括查询、相关文档标题、原始查询、评分和元数据等。元数据部分包含模板、领域、流畅性、意义、自然度、相关性评分、证据评分和归因等信息。数据集主要用于文本检索任务，语言为英语，数据来源于维基百科，规模在1K到10K之间。

提供机构：

cmalaviya

原始信息汇总

数据集卡片 for QUEST

数据集描述

数据集摘要

QUEST 数据集伴随论文《QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations》提供。

数据集结构

数据实例

QUEST 包含 6307 个训练查询，323 个开发示例，以及 1727 个测试示例。

数据字段

每个示例文件包含以下字段：

query - 由标注者编写的改写查询。
docs - 相关文档标题列表。
original_query - 原始查询，被改写。原子查询被 <mark></mark> 包围。增强查询不包含此字段。
scores - 此字段未填充，仅在生成预测时使用，以启用相同的数据结构。
metadata - 包含以下字段的字典：
- template - 用于创建查询的模板。
- domain - 查询所属的领域。
- fluency - 查询流畅性评级列表。
- meaning - 改写查询意义是否与原始查询相同的评级列表。
- naturalness - 查询自然性评级列表。
- relevance_ratings - 文档标题到相关性评级的字典。
- evidence_ratings - 文档标题到证据评级的字典。
- attributions - 文档标题到其归属的字典，归属是查询子字符串到文档子字符串的字典列表。

文档语料库位于 https://storage.googleapis.com/gresearch/quest/documents.jsonl，文件较大（899MB），格式为包含 title 和 text 的换行分隔的 JSON 字典。

引用信息

@inproceedings{malaviya23expertqa, title = {QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations}, author = {Chaitanya Malaviya and Peter Shaw and Ming-Wei Chang and Kenton Lee and Kristina Toutanova}, booktitle = {ACL}, year = {2023}, url = "https://arxiv.org/abs/2305.11694" }

搜集汇总

数据集介绍

背景与挑战

背景概述

QUEST是一个用于文本检索的数据集，包含6307个训练查询、323个开发查询和1727个测试查询，基于论文《QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations》构建。该数据集专注于实体查询，涉及隐含集合操作，每个实例包括查询、相关文档标题和元数据字段，适用于检索任务研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集