five

cmalaviya/quest

收藏
Hugging Face2023-12-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cmalaviya/quest
下载链接
链接失效反馈
官方服务:
资源简介:
QUEST数据集是一个用于实体检索查询的数据集,包含隐式集合操作。数据集包含6307个训练查询、323个开发示例和1727个测试示例。每个示例文件包含以换行符分隔的JSON字典,字段包括查询、相关文档标题、原始查询、评分和元数据等。元数据部分包含模板、领域、流畅性、意义、自然度、相关性评分、证据评分和归因等信息。数据集主要用于文本检索任务,语言为英语,数据来源于维基百科,规模在1K到10K之间。

QUEST数据集是一个用于实体检索查询的数据集,包含隐式集合操作。数据集包含6307个训练查询、323个开发示例和1727个测试示例。每个示例文件包含以换行符分隔的JSON字典,字段包括查询、相关文档标题、原始查询、评分和元数据等。元数据部分包含模板、领域、流畅性、意义、自然度、相关性评分、证据评分和归因等信息。数据集主要用于文本检索任务,语言为英语,数据来源于维基百科,规模在1K到10K之间。
提供机构:
cmalaviya
原始信息汇总

数据集卡片 for QUEST

数据集描述

数据集摘要

QUEST 数据集伴随论文《QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations》提供。

数据集结构

数据实例

QUEST 包含 6307 个训练查询,323 个开发示例,以及 1727 个测试示例。

数据字段

每个示例文件包含以下字段:

  • query - 由标注者编写的改写查询。
  • docs - 相关文档标题列表。
  • original_query - 原始查询,被改写。原子查询被 <mark></mark> 包围。增强查询不包含此字段。
  • scores - 此字段未填充,仅在生成预测时使用,以启用相同的数据结构。
  • metadata - 包含以下字段的字典:
    • template - 用于创建查询的模板。
    • domain - 查询所属的领域。
    • fluency - 查询流畅性评级列表。
    • meaning - 改写查询意义是否与原始查询相同的评级列表。
    • naturalness - 查询自然性评级列表。
    • relevance_ratings - 文档标题到相关性评级的字典。
    • evidence_ratings - 文档标题到证据评级的字典。
    • attributions - 文档标题到其归属的字典,归属是查询子字符串到文档子字符串的字典列表。

文档语料库位于 https://storage.googleapis.com/gresearch/quest/documents.jsonl,文件较大(899MB),格式为包含 titletext 的换行分隔的 JSON 字典。

引用信息

@inproceedings{malaviya23expertqa, title = {QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations}, author = {Chaitanya Malaviya and Peter Shaw and Ming-Wei Chang and Kenton Lee and Kristina Toutanova}, booktitle = {ACL}, year = {2023}, url = "https://arxiv.org/abs/2305.11694" }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
QUEST是一个用于文本检索的数据集,包含6307个训练查询、323个开发查询和1727个测试查询,基于论文《QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations》构建。该数据集专注于实体查询,涉及隐含集合操作,每个实例包括查询、相关文档标题和元数据字段,适用于检索任务研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作