irds/trec-cast_v1_2020

Name: irds/trec-cast_v1_2020
Creator: irds
Published: 2023-01-05 04:03:31
License: 暂无描述

Hugging Face2023-01-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/irds/trec-cast_v1_2020

下载链接

链接失效反馈

官方服务：

资源简介：

--- pretty_name: '`trec-cast/v1/2020`' viewer: false source_datasets: ['irds/trec-cast_v1'] task_categories: - text-retrieval --- # Dataset Card for `trec-cast/v1/2020` The `trec-cast/v1/2020` dataset, provided by the [ir-datasets](https://ir-datasets.com/) package. For more information about the dataset, see the [documentation](https://ir-datasets.com/trec-cast#trec-cast/v1/2020). # Data This dataset provides: - `queries` (i.e., topics); count=216 - `qrels`: (relevance assessments); count=40,451 - For `docs`, use [`irds/trec-cast_v1`](https://huggingface.co/datasets/irds/trec-cast_v1) This dataset is used by: [`trec-cast_v1_2020_judged`](https://huggingface.co/datasets/irds/trec-cast_v1_2020_judged) ## Usage ```python from datasets import load_dataset queries = load_dataset('irds/trec-cast_v1_2020', 'queries') for record in queries: record # {'query_id': ..., 'raw_utterance': ..., 'automatic_rewritten_utterance': ..., 'manual_rewritten_utterance': ..., 'manual_canonical_result_id': ..., 'topic_number': ..., 'turn_number': ...} qrels = load_dataset('irds/trec-cast_v1_2020', 'qrels') for record in qrels: record # {'query_id': ..., 'doc_id': ..., 'relevance': ..., 'iteration': ...} ``` Note that calling `load_dataset` will download the dataset (or provide access instructions when it's not public) and make a copy of the data in 🤗 Dataset format. ## Citation Information ``` @inproceedings{Dalton2020Cast, title={CAsT 2020: The Conversational Assistance Track Overview}, author={Jeffrey Dalton and Chenyan Xiong and Jamie Callan}, booktitle={TREC}, year={2020} } ```

展示名称: '`trec-cast/v1/2020`' 数据集查看器: 不可用源数据集: ['irds/trec-cast_v1'] 任务类别: - 文本检索 --- # `trec-cast/v1/2020` 数据集卡片本`trec-cast/v1/2020` 数据集由[ir-datasets](https://ir-datasets.com/)工具包提供。如需了解该数据集的更多详情，请参阅[官方文档](https://ir-datasets.com/trec-cast#trec-cast/v1/2020)。 # 数据集内容本数据集包含以下内容： - `查询（queries）`（即主题）：共216条 - `相关性标注（qrels）`（即相关性评估）：共40,451条 - 如需获取`文档（docs）`数据，请使用 [`irds/trec-cast_v1`](https://huggingface.co/datasets/irds/trec-cast_v1) 数据集本数据集被 [`trec-cast_v1_2020_judged`](https://huggingface.co/datasets/irds/trec-cast_v1_2020_judged) 数据集所使用。 ## 使用方法 python from datasets import load_dataset queries = load_dataset('irds/trec-cast_v1_2020', 'queries') for record in queries: record # {'查询ID': ..., '原始会话语句': ..., '自动重写会话语句': ..., '手动重写会话语句': ..., '手动标准化结果ID': ..., '主题编号': ..., '轮次编号': ...} qrels = load_dataset('irds/trec-cast_v1_2020', 'qrels') for record in qrels: record # {'查询ID': ..., '文档ID': ..., '相关性分值': ..., '迭代轮次': ...} 请注意，调用`load_dataset`函数将自动下载该数据集（若数据集未公开，则会提供访问指引），并将其转换为🤗 Dataset格式后存储副本。 ## 引用信息 @inproceedings{Dalton2020Cast, title={CAsT 2020：会话辅助跟踪任务综述}, author={Jeffrey Dalton and Chenyan Xiong and Jamie Callan}, booktitle={TREC}, year={2020} }

提供机构：

irds

原始信息汇总

数据集概述

数据集名称

trec-cast/v1/2020

数据来源

源数据集：irds/trec-cast_v1

数据内容

queries（查询）: 数量=216
qrels（相关性评估）: 数量=40,451
docs 数据来自 irds/trec-cast_v1

数据用途

该数据集被用于 trec-cast_v1_2020_judged

数据加载示例

python from datasets import load_dataset

queries = load_dataset(irds/trec-cast_v1_2020, queries) for record in queries: record # {query_id: ..., raw_utterance: ..., automatic_rewritten_utterance: ..., manual_rewritten_utterance: ..., manual_canonical_result_id: ..., topic_number: ..., turn_number: ...}

qrels = load_dataset(irds/trec-cast_v1_2020, qrels) for record in qrels: record # {query_id: ..., doc_id: ..., relevance: ..., iteration: ...}

引用信息

@inproceedings{Dalton2020Cast, title={CAsT 2020: The Conversational Assistance Track Overview}, author={Jeffrey Dalton and Chenyan Xiong and Jamie Callan}, booktitle={TREC}, year={2020} }

搜集汇总

数据集介绍

构建方式

trec-cast/v1/2020数据集的构建，是在前一代trec-cast/v1数据集的基础上进行的更新与拓展。该数据集由ir-datasets提供，主要包括查询（topics）和相关性评估（qrels）两部分，其中查询数据量为216条，而相关性评估数据量为40,451条。此外，文档（docs）部分则需要通过irds/trec-cast_v1数据集获取，体现了数据集构建者对文本检索任务领域需求的深入理解与细致规划。

特点

本数据集的特色在于，它专门为对话式搜索场景设计，旨在评估对话系统中检索组件的性能。其查询数据包含原始查询语句、自动重写语句以及人工重写语句，为研究者提供了丰富的文本处理研究素材。同时，相关性评估数据的详尽性，使得该数据集成为衡量检索结果相关性的重要资源。在文本检索和对话系统研究领域，trec-cast/v1/2020数据集具有重要的参考价值。

使用方法

使用trec-cast/v1/2020数据集时，用户可以通过调用load_dataset函数从HuggingFace的datasets库中加载queries和qrels两部分数据。加载后的数据以字典形式呈现，其中queries包含查询相关的详细信息，qrels则包含文档与查询的相关性评估。用户可以依据自身的任务需求，对这些数据进行相应的处理与分析，从而深入探究对话式搜索的性能评估问题。

背景与挑战

背景概述

在信息检索领域，构建能够模拟对话环境的数据集对于提升检索系统的智能化水平至关重要。`trec-cast/v1/2020`数据集，由信息检索数据集组织[ir-datasets](https://ir-datasets.com/)提供，是在此领域的一个重要成果。该数据集创建于2020年，由Jeffrey Dalton、Chenyan Xiong和Jamie Callan等研究人员主导，主要针对的是对话式信息检索任务。其核心研究问题是如何在对话场景中更准确地进行信息检索，以满足用户在交互过程中的信息需求。该数据集自发布以来，在学术界和工业界产生了广泛影响，推动了对话式检索技术的发展。

当前挑战

该数据集在构建过程中面临的挑战主要包括两个方面：一是如何精确地模拟真实对话环境中的信息需求，二是如何在大量的对话数据中保持标注的一致性和准确性。在领域问题上，`trec-cast/v1/2020`数据集需要解决的是如何在动态对话过程中实现高效的信息检索，这要求系统能够理解对话的上下文并做出适应。此外，构建过程中遇到的挑战还包括如何处理自然语言的不确定性和多样性，以及如何在数据集中平衡不同类型和难度的检索任务，以确保数据集的全面性和实用性。

常用场景

经典使用场景

在文本检索领域，irds/trec-cast_v1_2020数据集的典型应用场景是评估对话式检索系统的性能。该数据集包含216个查询主题和40,451个相关度评估，旨在模拟用户在实际对话中检索信息的行为，为研究人员提供了一个评估对话式搜索系统效果的平台。

解决学术问题

该数据集解决了传统文本检索评价方法在模拟真实用户对话场景方面的不足。通过对查询和文档的相关度进行细致的评估，irds/trec-cast_v1_2020数据集为学术研究提供了深入理解对话式检索中用户意图和检索效果之间关系的机会，对提升检索系统的用户体验具有重大意义。

衍生相关工作

基于irds/trec-cast_v1_2020数据集，学术界衍生出了一系列相关研究工作，如对话式检索的评价指标研究、对话系统的意图识别和用户行为分析等。这些研究进一步推动了对话式检索技术的发展，并促进了信息检索领域理论体系的完善。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集