satyanshu404/trec-cast-2019
收藏Hugging Face2023-11-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/satyanshu404/trec-cast-2019
下载链接
链接失效反馈官方服务:
资源简介:
TREC Conversational Assistance Track (CAsT) 数据集旨在推动对话式信息检索(CIS)系统的研究,并创建一个可重复使用的开放领域信息中心对话基准。数据集包括2019年的训练和评估主题,以及一个样本数据集。数据集由三个标准的TREC集合组成:MARCO Ranking passages、Wikipedia (TREC CAR)和News (Washington Post)。此外,还提供了文档ID格式的详细说明以及用于处理数据的代码和工具。
The TREC Conversational Assistance Track (CAsT) dataset aims to advance research on conversational information retrieval (CIS) systems and create a reusable open-domain informational conversational benchmark. The dataset includes training and evaluation topics from 2019, along with a sample dataset. It consists of three standard TREC collections: MARCO Ranking passages, Wikipedia (TREC CAR), and News (Washington Post). In addition, detailed specifications for document ID formatting as well as code and tools for data processing are provided.
提供机构:
satyanshu404
原始信息汇总
TREC Conversational Assistance Track (CAsT) 数据集概述
数据集目标
TREC CAsT 数据集旨在推动对话式信息检索系统的研究,创建一个适用于开放领域信息中心对话的基准测试。
2019年数据
主题
- 训练主题:包含30个示例训练主题。
- 训练判断:判断采用三点量表(2分非常相关,1分相关,0分不相关)。
- 评估主题:包含50个评估主题。
数据集样本
- 标题:美国司法历史
- 描述:美国司法历史,包括关键的法庭案件及其确立的内容。
- 提示:
- 最重要的美国最高法院案件有哪些?
- Plessy v. Ferguson 确立了什么?
- Marbury vs Madison 案件如何?
- 是否一致通过?
- Roe vs Wade 的影响是什么?
- 主要论点是什么?
- Brown v Board of Education 的要点是什么?
- 主要论点是什么?
- 为什么今天仍然重要?
数据集组成
- 语料库:由三个标准TREC集合组成:MARCO排序段落、维基百科(TREC CAR)和新闻(华盛顿邮报)。
- MS MARCO Passage Ranking 集合:仅包含段落ID和段落文本。同时提供了一个段落ID到URL的映射文件。
- TREC CAR 段落集合 v2.0
- TREC 华盛顿邮报语料库版本2:需要组织协议才能获取。
文档ID格式
- 文档ID格式为
[collection_id_paragraph_id],集合ID和段落ID用下划线分隔。 - 集合ID包括:
{MARCO, CAR, WAPO}。 - 段落ID:MARCO和CAR的标准提供,华盛顿邮报的段落ID为
[article_id-paragraph_index]。
代码和工具
- TREC-CAsT 工具:包含处理数据的代码和脚本,支持将集合解析为标准索引格式,并提供处理主题的API。
搜集汇总
数据集介绍

构建方式
TREC CAsT数据集的构建,旨在推进开放域信息中心对话式搜索系统的研究。该数据集融合了三个标准的TREC集合:MS MARCO排名段落、TREC CAR段落数据集和华盛顿邮报新闻集合,通过精心设计的主题和提示,形成了适合训练和评估对话式信息检索模型的基础资源。
特点
该数据集的特点在于,它为对话式信息检索提供了一个可重用的基准,涵盖了30个示例训练主题和50个评估主题,每个主题都根据相关性分为三个等级。数据集的多样性确保了模型能在不同领域和话题上进行有效的学习和评估。
使用方法
使用TREC CAsT数据集,研究者可以访问到训练和评估主题,以及相关的判断和段落文本。数据集提供了文档ID格式规范,便于索引和检索。此外,TREC-CAsT工具库提供了处理数据的代码和脚本,包括解析集合、工作与主题的API,支持文本、JSON和协议缓冲区格式,方便研究者进行数据处理和研究。
背景与挑战
背景概述
在信息检索领域,针对会话式信息搜索(Conversational Information Seeking, CIS)的模型训练与评估,长期以来缺乏合适的 datasets。TREC Conversational Assistance Track (CAsT) 数据集的创建旨在推动该领域的研究进展,其核心目标在于构建一个面向开放域信息中心会话对话的 reusable benchmark。该数据集由 TREC 2019 年度活动推出,旨在通过提供训练话题、评估话题以及相关判断,为研究人员提供了一个综合性的研究平台,进而提升 conversational search 系统的性能。数据集的构建汇集了三位一体的资源:MS MARCO 排名段落、TREC CAR 段落以及华盛顿邮报新闻,以此形成了丰富的信息检索语料库,对信息检索和对话系统领域产生了显著影响。
当前挑战
TREC CAsT 数据集在构建与使用过程中面临了诸多挑战。首先,构建一个能够适应开放域信息检索需求的数据集,需要克服信息多样性与异质性的问题。其次,数据集的标注质量直接关系到模型训练的效果,因此如何保证标注的一致性与准确性是一个重要挑战。此外,数据集的规模与覆盖范围也是一大挑战,需要确保既有足够的样本量来支撑模型训练,又要保证话题的多样性和时效性。在解决领域问题上,CAsT 需要处理自然语言理解的复杂性,特别是在理解用户意图和提供准确信息方面。
常用场景
经典使用场景
在信息检索领域,TREC CAsT 2019数据集的典型应用场景是构建与评估面向开放域信息检索的对话系统。该数据集为研究人员提供了对话式信息检索的基准,使得他们能够设计出更加符合人类对话习惯的搜索系统,进而提升用户体验和检索效率。
衍生相关工作
基于TREC CAsT 2019数据集,学术界衍生出了一系列相关工作,包括对话系统的基准测试、对话策略的优化研究,以及信息检索算法的改进等。这些工作不仅推动了对话式信息检索领域的发展,也为相关技术的商业化应用奠定了基础。
数据集最近研究
最新研究方向
鉴于当前针对会话信息检索(CIS)模型的训练与评估适宜数据集的稀缺性,TREC CAsT数据集的创建旨在推动开放域信息中心对话型搜索系统研究的发展。该数据集的最新研究方向聚焦于构建开放的对话搜索评价基准,通过集成三种标准TREC集合(MARCO排名段落、Wikipedia段落及华盛顿邮报新闻段落),为研究者提供了丰富的信息检索与对话交互研究资源。近期研究利用TREC CAsT数据集,正深入探索对话系统在信息检索中的有效性、相关性判断以及对话连贯性的建模,以期提升对话搜索系统的智能化水平。这一研究方向在信息检索和自然语言处理领域引起了广泛关注,对于推动对话型AI技术的实用化具有重要的理论与实践意义。
以上内容由遇见数据集搜集并总结生成



