FiRA-TREC19 dataset

github2023-06-07 更新2024-05-31 收录

下载链接：

https://github.com/sebastian-hofstaetter/fira-trec-19-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

FiRA-TREC19数据集包含24,199个查询和文档片段对，涵盖了TREC-DL的43个查询中的1,990个相关文档。该数据集用于细粒度相关性注释，支持多任务文档排序和问答。

The FiRA-TREC19 dataset comprises 24,199 query and document fragment pairs, covering 1,990 relevant documents from 43 queries in TREC-DL. This dataset is utilized for fine-grained relevance annotation, supporting multi-task document ranking and question answering.

创建时间：

2020-06-03

原始信息汇总

数据集概述

数据集名称

FiRA: Fine-grained Relevance Annotations for TREC-DL19

数据集描述

FiRA是一个包含细粒度相关性标注的新型数据集，用于多任务文档排序和问答。该数据集扩展了TREC 2019深度学习文档跟踪的排名检索标注，为所有相关文档添加了段落和单词级别的分级相关性标注。

数据集内容

数据量：包含24,199个查询与文档片段对，涉及1,990个相关文档，对应43个查询。
数据结构：
- 处理过的文档片段和标注任务列表
- 原始（匿名化）标注
- 文档片段和文档级别的大多数投票判断

数据集用途

适用于任何关注长文档排序以及从这些文档中选择片段或答案的方法。例如，用于改进和评估文档排序模型。

引用信息

@inproceedings{Hofstaetter2020_fira, author = {Hofst{"a}tter, Sebastian and Zlabinger, Markus and Sertkan, Mete and Schr{"o}der, Michael and Hanbury, Allan}, title = {Fine-Grained Relevance Annotations for Multi-Task Document Ranking and Question Answering}, booktitle = {Proc. of CIKM}, year = {2020}, }

搜集汇总

数据集介绍

构建方式

FiRA-TREC19数据集的构建过程体现了精细化的标注策略。该数据集基于TREC 2019深度学习文档跟踪的排名检索标注，进一步扩展了文档和词汇级别的分级相关性标注。具体而言，文档被分割成片段，查询与文档片段对被呈现给标注者进行标注。为确保标注质量，每个候选标注均采用至少三人的多数投票机制，并在标注过程中持续监控质量参数，如每次标注所花费的时间。此外，标注者需选择相关文本片段，从而降低误报检索相关性标签的概率。

特点

FiRA-TREC19数据集的特点在于其精细化的标注粒度与高质量的控制机制。该数据集包含24,199个查询与文档片段对，涵盖了TREC-DL 43个查询的所有1,990个相关文档。通过标注者的多轮投票与严格的质量监控，数据集不仅提供了文档级别的相关性标注，还深入至片段和词汇级别，揭示了长文档中相关性的分布规律。此外，数据集中还包含10对完全标注的文档片段，用于研究标注者的主观性，进一步增强了数据集的科学价值。

使用方法

FiRA-TREC19数据集适用于长文档排名及片段或答案选择的相关研究。研究者可利用该数据集评估和改进文档排名模型，例如Transformer-Kernel Ranking模型。数据集文件夹中提供了处理后的文档片段、标注任务列表、原始匿名标注以及多数投票的文档片段和文档级别判断。通过分析这些数据，研究者能够深入理解长文档中相关性的分布特征，并开发更精确的检索与问答系统。

背景与挑战

背景概述

FiRA-TREC19数据集由Sebastian Hofstätter等研究人员于2020年提出，旨在为多任务文档排序和问答系统提供细粒度的相关性标注。该数据集扩展了TREC 2019深度学习文档轨道的排名检索标注，增加了段落和词汇级别的分级相关性标注。数据集包含24,199个查询与文档片段对，涵盖了1,990个相关文档和43个查询。通过将文档分割成片段，并要求标注者选择相关文本片段，FiRA数据集确保了高质量的相关性标注，并减少了误报检索标签的可能性。该数据集在信息检索和自然语言处理领域具有重要影响力，特别是在长文档排序和片段选择任务中。

当前挑战

FiRA-TREC19数据集在构建过程中面临的主要挑战包括确保标注的一致性和质量。由于标注任务涉及细粒度的文本片段选择，标注者之间的主观性可能导致不一致的标注结果。为此，研究团队采用了至少三重多数投票机制，并对每个候选标注进行持续的质量监控。此外，数据集还面临长文档中相关性分布的偏差问题，尽管研究表明文档的早期区域更常被标注为相关，但仍有大量相关片段分布在文档的后期部分。这些挑战要求研究人员在模型设计和评估中充分考虑标注的主观性和文档结构的复杂性。

常用场景

经典使用场景

FiRA-TREC19数据集在信息检索领域具有重要应用，特别是在长文档排序和片段选择任务中。该数据集通过细粒度的相关性标注，为研究者提供了丰富的实验数据，能够有效支持文档排序模型和问答系统的开发与评估。其经典使用场景包括基于深度学习的文档排序模型训练与验证，以及问答系统中答案片段的精确提取。

实际应用

在实际应用中，FiRA-TREC19数据集被广泛用于搜索引擎优化和智能问答系统的开发。例如，在搜索引擎中，该数据集可以帮助优化长文档的排序算法，使用户能够更快地找到相关信息。在问答系统中，其细粒度标注支持精确答案的提取，从而提升用户体验。此外，该数据集还可用于法律、医疗等领域的信息检索任务，帮助从业者快速定位关键信息。

衍生相关工作

FiRA-TREC19数据集的发布催生了一系列相关研究工作，特别是在基于深度学习的文档排序和问答系统领域。例如，基于该数据集开发的TKL文档排序模型在实验中表现出色，为后续研究提供了重要参考。此外，该数据集还被用于探索文档内部相关性分布的研究，揭示了文档中相关片段的位置偏好，为信息检索算法的优化提供了新的思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集