cmalaviya/quest
收藏Hugging Face2023-12-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cmalaviya/quest
下载链接
链接失效反馈官方服务:
资源简介:
QUEST数据集是一个用于实体检索查询的数据集,包含隐式集合操作。数据集包含6307个训练查询、323个开发示例和1727个测试示例。每个示例文件包含以换行符分隔的JSON字典,字段包括查询、相关文档标题、原始查询、评分和元数据等。元数据部分包含模板、领域、流畅性、意义、自然度、相关性评分、证据评分和归因等信息。数据集主要用于文本检索任务,语言为英语,数据来源于维基百科,规模在1K到10K之间。
QUEST数据集是一个用于实体检索查询的数据集,包含隐式集合操作。数据集包含6307个训练查询、323个开发示例和1727个测试示例。每个示例文件包含以换行符分隔的JSON字典,字段包括查询、相关文档标题、原始查询、评分和元数据等。元数据部分包含模板、领域、流畅性、意义、自然度、相关性评分、证据评分和归因等信息。数据集主要用于文本检索任务,语言为英语,数据来源于维基百科,规模在1K到10K之间。
提供机构:
cmalaviya
原始信息汇总
数据集卡片 for QUEST
数据集描述
数据集摘要
QUEST 数据集伴随论文《QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations》提供。
数据集结构
数据实例
QUEST 包含 6307 个训练查询,323 个开发示例,以及 1727 个测试示例。
数据字段
每个示例文件包含以下字段:
query- 由标注者编写的改写查询。docs- 相关文档标题列表。original_query- 原始查询,被改写。原子查询被<mark></mark>包围。增强查询不包含此字段。scores- 此字段未填充,仅在生成预测时使用,以启用相同的数据结构。metadata- 包含以下字段的字典:template- 用于创建查询的模板。domain- 查询所属的领域。fluency- 查询流畅性评级列表。meaning- 改写查询意义是否与原始查询相同的评级列表。naturalness- 查询自然性评级列表。relevance_ratings- 文档标题到相关性评级的字典。evidence_ratings- 文档标题到证据评级的字典。attributions- 文档标题到其归属的字典,归属是查询子字符串到文档子字符串的字典列表。
文档语料库位于 https://storage.googleapis.com/gresearch/quest/documents.jsonl,文件较大(899MB),格式为包含 title 和 text 的换行分隔的 JSON 字典。
引用信息
@inproceedings{malaviya23expertqa, title = {QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations}, author = {Chaitanya Malaviya and Peter Shaw and Ming-Wei Chang and Kenton Lee and Kristina Toutanova}, booktitle = {ACL}, year = {2023}, url = "https://arxiv.org/abs/2305.11694" }
搜集汇总
数据集介绍

背景与挑战
背景概述
QUEST是一个用于文本检索的数据集,包含6307个训练查询、323个开发查询和1727个测试查询,基于论文《QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations》构建。该数据集专注于实体查询,涉及隐含集合操作,每个实例包括查询、相关文档标题和元数据字段,适用于检索任务研究。
以上内容由遇见数据集搜集并总结生成



