five

irds/trec-cast_v1_2020|信息检索数据集|学术搜索数据集

收藏
hugging_face2023-01-05 更新2024-03-04 收录
信息检索
学术搜索
下载链接:
https://hf-mirror.com/datasets/irds/trec-cast_v1_2020
下载链接
链接失效反馈
资源简介:
trec-cast/v1/2020数据集,由ir-datasets提供,包含216个查询(topics)和40,451个相关性评估(relevance assessments)。文档数据来自irds/trec-cast_v1,用于trec-cast_v1_2020_judged。
提供机构:
irds
原始信息汇总

数据集概述

数据集名称

trec-cast/v1/2020

数据来源

  • 源数据集:irds/trec-cast_v1

数据内容

  • queries(查询): 数量=216
  • qrels(相关性评估): 数量=40,451
  • docs 数据来自 irds/trec-cast_v1

数据用途

该数据集被用于 trec-cast_v1_2020_judged

数据加载示例

python from datasets import load_dataset

queries = load_dataset(irds/trec-cast_v1_2020, queries) for record in queries: record # {query_id: ..., raw_utterance: ..., automatic_rewritten_utterance: ..., manual_rewritten_utterance: ..., manual_canonical_result_id: ..., topic_number: ..., turn_number: ...}

qrels = load_dataset(irds/trec-cast_v1_2020, qrels) for record in qrels: record # {query_id: ..., doc_id: ..., relevance: ..., iteration: ...}

引用信息

@inproceedings{Dalton2020Cast, title={CAsT 2020: The Conversational Assistance Track Overview}, author={Jeffrey Dalton and Chenyan Xiong and Jamie Callan}, booktitle={TREC}, year={2020} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
trec-cast/v1/2020数据集的构建,是在前一代trec-cast/v1数据集的基础上进行的更新与拓展。该数据集由ir-datasets提供,主要包括查询(topics)和相关性评估(qrels)两部分,其中查询数据量为216条,而相关性评估数据量为40,451条。此外,文档(docs)部分则需要通过irds/trec-cast_v1数据集获取,体现了数据集构建者对文本检索任务领域需求的深入理解与细致规划。
特点
本数据集的特色在于,它专门为对话式搜索场景设计,旨在评估对话系统中检索组件的性能。其查询数据包含原始查询语句、自动重写语句以及人工重写语句,为研究者提供了丰富的文本处理研究素材。同时,相关性评估数据的详尽性,使得该数据集成为衡量检索结果相关性的重要资源。在文本检索和对话系统研究领域,trec-cast/v1/2020数据集具有重要的参考价值。
使用方法
使用trec-cast/v1/2020数据集时,用户可以通过调用load_dataset函数从HuggingFace的datasets库中加载queries和qrels两部分数据。加载后的数据以字典形式呈现,其中queries包含查询相关的详细信息,qrels则包含文档与查询的相关性评估。用户可以依据自身的任务需求,对这些数据进行相应的处理与分析,从而深入探究对话式搜索的性能评估问题。
背景与挑战
背景概述
在信息检索领域,构建能够模拟对话环境的数据集对于提升检索系统的智能化水平至关重要。`trec-cast/v1/2020`数据集,由信息检索数据集组织[ir-datasets](https://ir-datasets.com/)提供,是在此领域的一个重要成果。该数据集创建于2020年,由Jeffrey Dalton、Chenyan Xiong和Jamie Callan等研究人员主导,主要针对的是对话式信息检索任务。其核心研究问题是如何在对话场景中更准确地进行信息检索,以满足用户在交互过程中的信息需求。该数据集自发布以来,在学术界和工业界产生了广泛影响,推动了对话式检索技术的发展。
当前挑战
该数据集在构建过程中面临的挑战主要包括两个方面:一是如何精确地模拟真实对话环境中的信息需求,二是如何在大量的对话数据中保持标注的一致性和准确性。在领域问题上,`trec-cast/v1/2020`数据集需要解决的是如何在动态对话过程中实现高效的信息检索,这要求系统能够理解对话的上下文并做出适应。此外,构建过程中遇到的挑战还包括如何处理自然语言的不确定性和多样性,以及如何在数据集中平衡不同类型和难度的检索任务,以确保数据集的全面性和实用性。
常用场景
经典使用场景
在文本检索领域,irds/trec-cast_v1_2020数据集的典型应用场景是评估对话式检索系统的性能。该数据集包含216个查询主题和40,451个相关度评估,旨在模拟用户在实际对话中检索信息的行为,为研究人员提供了一个评估对话式搜索系统效果的平台。
解决学术问题
该数据集解决了传统文本检索评价方法在模拟真实用户对话场景方面的不足。通过对查询和文档的相关度进行细致的评估,irds/trec-cast_v1_2020数据集为学术研究提供了深入理解对话式检索中用户意图和检索效果之间关系的机会,对提升检索系统的用户体验具有重大意义。
衍生相关工作
基于irds/trec-cast_v1_2020数据集,学术界衍生出了一系列相关研究工作,如对话式检索的评价指标研究、对话系统的意图识别和用户行为分析等。这些研究进一步推动了对话式检索技术的发展,并促进了信息检索领域理论体系的完善。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

VQA

我们提出了自由形式和开放式视觉问答 (VQA) 的任务。给定图像和关于图像的自然语言问题,任务是提供准确的自然语言答案。反映许多现实世界的场景,例如帮助视障人士,问题和答案都是开放式的。视觉问题有选择地针对图像的不同区域,包括背景细节和底层上下文。因此,与生成通用图像说明的系统相比,在 VQA 上取得成功的系统通常需要对图像和复杂推理有更详细的理解。此外,VQA 适合自动评估,因为许多开放式答案仅包含几个单词或一组封闭的答案,可以以多项选择的形式提供。我们提供了一个数据集包含 100,000 的图像和问题并讨论它提供的信息。提供了许多 VQA 基线,并与人类表现进行了比较。

OpenDataLab 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录