CISI dataset

github2023-12-05 更新2024-05-31 收录

下载链接：

https://github.com/Berozain/LuceneCISI

下载链接

链接失效反馈

官方服务：

资源简介：

使用Lucene进行信息检索的CISI数据集。该数据集用于索引文档和在文档间进行搜索，支持多种相似度计算方法，如IB, DFR, BM-25, TF-IDF, Boolean, Axiomatic, LM-Dirichlet，并能计算Recall, Precision, MAP (Mean Average Precision) 和 F-Measure。

本数据集以Lucene为基础，致力于信息检索领域，旨在构建文档索引并实现文档间的搜索。该数据集兼容多种相似度计算方法，包括但不限于逆文档频率（IB）、文档频率相关性（DFR）、贝叶斯-25（BM-25）、词频-逆文档频率（TF-IDF）、布尔逻辑、公理化方法、语言模型-Dirichlet等，并支持计算召回率（Recall）、精确率（Precision）、平均平均精度（MAP）及F度量（F-Measure）。

创建时间：

2023-07-02

原始信息汇总

Lucene and CISI dataset 概述

数据集用途

本数据集用于信息检索的演示，展示了如何使用Lucene与CISI数据集进行文档索引和搜索。

数据集功能

支持多种搜索算法：包括IB, DFR, BM-25, TF-IDF, Boolean, Axiomatic, LM-Dirichlet相似性算法。
可配置性：用户可以启用或禁用词干提取器，并设置自定义停用词。

查询方式

简单查询：如 Lending book。
高级查询：使用格式 docTitle="" docContent="" docAuthors="" 以获取更精确的结果。

评估指标

评估基于111个查询，计算了Recall, Precision, MAP (Mean Average Precision) 和 F-Measure。

数据集资源

Lucene: Apache Lucene
CISI dataset: CISI dataset

开发者

Behrouz Amoushahi
DR Mehdi Jabalameli

搜集汇总

数据集介绍

构建方式

CISI数据集是为信息检索领域设计的一个经典数据集，其构建过程基于文献检索的实际需求。数据集包含了大量的文档和查询，每个查询都附带了最相关的文档列表，这些文档按照相关性排序。数据集的构建旨在模拟真实世界中的信息检索场景，通过精确的文档标注和查询设计，确保其能够广泛应用于信息检索算法的评估与优化。

特点

CISI数据集的特点在于其丰富的查询和文档资源，共包含111个查询，每个查询都附带了经过人工标注的相关文档列表。数据集的设计充分考虑了信息检索中的多样性需求，支持多种检索模型的评估，如布尔模型、TF-IDF、BM-25等。此外，数据集还提供了详细的评估指标，包括召回率、精确率、平均精度（MAP）和F值，为研究者提供了全面的性能评估工具。

使用方法

使用CISI数据集时，用户可以通过Lucene等工具进行文档索引和查询检索。数据集支持多种检索模型的应用，用户可以根据需求选择不同的相似度计算方法，如TF-IDF、BM-25等。通过设置自定义的停用词和启用词干提取功能，用户可以进一步优化检索效果。数据集的查询格式灵活，支持简单查询和高级查询，用户可以通过指定文档标题、内容或作者来获取最相关的结果。

背景与挑战

背景概述

CISI数据集是信息检索领域中的一个经典数据集，主要用于评估和优化信息检索系统的性能。该数据集由研究人员Behrouz Amoushahi和Mehdi Jabalameli开发，旨在提供一个标准化的测试平台，用于比较不同检索算法的效果。CISI数据集包含111个查询及其对应的相关文档，涵盖了广泛的文本检索任务。通过该数据集，研究人员能够深入探讨文本检索中的核心问题，如文档索引、查询匹配和相关性排序等。CISI数据集的出现极大地推动了信息检索领域的发展，为后续的研究提供了坚实的基础。

当前挑战

CISI数据集在信息检索领域的应用面临多重挑战。首先，如何有效地处理大规模文档集合并实现高效的索引构建是一个关键问题。其次，查询与文档之间的语义匹配需要克服自然语言处理中的歧义性和复杂性。此外，评估检索系统的性能时，如何准确计算召回率、精确率和平均精度等指标也是一个技术难点。在构建过程中，研究人员还需解决数据清洗、格式标准化以及相关性标注的准确性等问题。这些挑战不仅考验了信息检索算法的鲁棒性，也推动了相关技术的不断进步。

常用场景

经典使用场景

CISI数据集在信息检索领域中被广泛使用，尤其是在评估和比较不同检索算法的性能时。该数据集包含了111个查询及其相关文档，研究者可以通过这些查询来测试和优化检索模型，如TF-IDF、BM-25等。通过使用CISI数据集，研究者能够模拟真实世界中的信息检索场景，从而验证算法的有效性和鲁棒性。

衍生相关工作

CISI数据集衍生了许多经典的信息检索研究工作。例如，基于该数据集的研究提出了多种改进的检索算法，如基于语言模型的检索方法和基于深度学习的检索模型。这些研究不仅推动了信息检索领域的发展，还为后续的研究提供了丰富的理论基础和实践经验。

数据集最近研究