irds/nfcorpus

Name: irds/nfcorpus
Creator: irds
Published: 2023-01-05 03:45:40
License: 暂无描述

Hugging Face2023-01-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/irds/nfcorpus

下载链接

链接失效反馈

官方服务：

资源简介：

--- pretty_name: '`nfcorpus`' viewer: false source_datasets: [] task_categories: - text-retrieval --- # Dataset Card for `nfcorpus` The `nfcorpus` dataset, provided by the [ir-datasets](https://ir-datasets.com/) package. For more information about the dataset, see the [documentation](https://ir-datasets.com/nfcorpus#nfcorpus). # Data This dataset provides: - `docs` (documents, i.e., the corpus); count=5,371 This dataset is used by: [`nfcorpus_dev`](https://huggingface.co/datasets/irds/nfcorpus_dev), [`nfcorpus_dev_nontopic`](https://huggingface.co/datasets/irds/nfcorpus_dev_nontopic), [`nfcorpus_dev_video`](https://huggingface.co/datasets/irds/nfcorpus_dev_video), [`nfcorpus_test`](https://huggingface.co/datasets/irds/nfcorpus_test), [`nfcorpus_test_nontopic`](https://huggingface.co/datasets/irds/nfcorpus_test_nontopic), [`nfcorpus_test_video`](https://huggingface.co/datasets/irds/nfcorpus_test_video), [`nfcorpus_train`](https://huggingface.co/datasets/irds/nfcorpus_train), [`nfcorpus_train_nontopic`](https://huggingface.co/datasets/irds/nfcorpus_train_nontopic), [`nfcorpus_train_video`](https://huggingface.co/datasets/irds/nfcorpus_train_video) ## Usage ```python from datasets import load_dataset docs = load_dataset('irds/nfcorpus', 'docs') for record in docs: record # {'doc_id': ..., 'url': ..., 'title': ..., 'abstract': ...} ``` Note that calling `load_dataset` will download the dataset (or provide access instructions when it's not public) and make a copy of the data in 🤗 Dataset format. ## Citation Information ``` @inproceedings{Boteva2016Nfcorpus, title="A Full-Text Learning to Rank Dataset for Medical Information Retrieval", author = "Vera Boteva and Demian Gholipour and Artem Sokolov and Stefan Riezler", booktitle = "Proceedings of the European Conference on Information Retrieval ({ECIR})", location = "Padova, Italy", publisher = "Springer", year = 2016 } ```

数据集显示名称：`nfcorpus` 内置查看器：禁用源数据集列表：无任务类别： - 文本检索 # `nfcorpus` 数据集卡片本`nfcorpus`数据集由[ir-datasets](https://ir-datasets.com/)工具包提供。如需了解该数据集的更多详情，请参阅[官方文档](https://ir-datasets.com/nfcorpus#nfcorpus)。 # 数据本数据集包含以下内容：`docs`（文档，即语料库），共计5371条。本数据集的下游使用子集包括：[`nfcorpus_dev`](https://huggingface.co/datasets/irds/nfcorpus_dev)、[`nfcorpus_dev_nontopic`](https://huggingface.co/datasets/irds/nfcorpus_dev_nontopic)、[`nfcorpus_dev_video`](https://huggingface.co/datasets/irds/nfcorpus_dev_video)、[`nfcorpus_test`](https://huggingface.co/datasets/irds/nfcorpus_test)、[`nfcorpus_test_nontopic`](https://huggingface.co/datasets/irds/nfcorpus_test_nontopic)、[`nfcorpus_test_video`](https://huggingface.co/datasets/irds/nfcorpus_test_video)、[`nfcorpus_train`](https://huggingface.co/datasets/irds/nfcorpus_train)、[`nfcorpus_train_nontopic`](https://huggingface.co/datasets/irds/nfcorpus_train_nontopic)、[`nfcorpus_train_video`](https://huggingface.co/datasets/irds/nfcorpus_train_video)。 ## 使用方法 python from datasets import load_dataset docs = load_dataset('irds/nfcorpus', 'docs') for record in docs: record # {'doc_id': ..., 'url': ..., 'title': ..., 'abstract': ...} 请注意，调用`load_dataset`函数将自动下载该数据集（若数据集未公开，则会提供访问指引），并将其转换为🤗数据集格式进行本地存储。 ## 引用信息 @inproceedings{Boteva2016Nfcorpus, title="A Full-Text Learning to Rank Dataset for Medical Information Retrieval", author = "Vera Boteva and Demian Gholipour and Artem Sokolov and Stefan Riezler", booktitle = "Proceedings of the European Conference on Information Retrieval ({ECIR})", location = "Padova, Italy", publisher = "Springer", year = 2016 }

提供机构：

irds

原始信息汇总

数据集概述

数据集名称

nfcorpus

数据集来源

由 ir-datasets 包提供。

数据集内容

数据类型: docs (文档，即语料库)
文档数量: 5,371

数据集用途

用于多个相关数据集，包括：

nfcorpus_dev
nfcorpus_dev_nontopic
nfcorpus_dev_video
nfcorpus_test
nfcorpus_test_nontopic
nfcorpus_test_video
nfcorpus_train
nfcorpus_train_nontopic
nfcorpus_train_video

使用示例

python from datasets import load_dataset

docs = load_dataset(irds/nfcorpus, docs) for record in docs: record # {doc_id: ..., url: ..., title: ..., abstract: ...}

引用信息

@inproceedings{Boteva2016Nfcorpus, title="A Full-Text Learning to Rank Dataset for Medical Information Retrieval", author = "Vera Boteva and Demian Gholipour and Artem Sokolov and Stefan Riezler", booktitle = "Proceedings of the European Conference on Information Retrieval ({ECIR})", location = "Padova, Italy", publisher = "Springer", year = 2016 }

搜集汇总

数据集介绍

构建方式

nfcorpus数据集由ir-datasets包提供，专为医学信息检索领域的文本检索任务设计。该数据集通过收集和整理医学领域的文献资料构建而成，包含5,371篇文档，涵盖了广泛的医学主题。这些文档经过精心筛选和标注，确保了数据的高质量和适用性。

使用方法

使用nfcorpus数据集时，可通过Hugging Face的datasets库进行加载。用户只需调用load_dataset函数，指定数据集名称和子集类型，即可获取文档数据。加载后的数据以🤗 Dataset格式存储，便于进行后续的文本处理和检索实验。具体使用方法可参考Hugging Face的官方文档和示例代码。

背景与挑战

背景概述

`nfcorpus`数据集由ir-datasets包提供，专为医学信息检索领域的全文学习排序任务而设计。该数据集由Vera Boteva等研究人员于2016年发布，并在欧洲信息检索会议（ECIR）上进行了详细介绍。数据集包含5,371篇文档，涵盖了医学领域的广泛主题，旨在为研究人员提供一个标准化的基准，以评估和开发信息检索算法。`nfcorpus`的发布极大地推动了医学信息检索领域的研究进展，尤其是在学习排序算法的开发和应用方面。

当前挑战

`nfcorpus`数据集在解决医学信息检索问题时面临多重挑战。首先，医学领域的文本通常包含大量专业术语和复杂的语言结构，这对信息检索系统的语义理解能力提出了较高要求。其次，数据集的构建过程中，研究人员需要确保文档的多样性和代表性，以覆盖广泛的医学主题，同时避免数据偏差。此外，医学信息的时效性和准确性也是构建过程中需要特别关注的问题，以确保数据集能够反映最新的医学研究成果。这些挑战不仅影响了数据集的构建质量，也对后续的信息检索算法提出了更高的要求。

常用场景

经典使用场景

nfcorpus数据集在信息检索领域具有重要地位，尤其在医学信息检索方面表现出色。该数据集常用于评估和优化文本检索算法，特别是在学习排序（Learning to Rank）任务中。通过提供丰富的文档集合，研究者能够深入分析不同检索模型在医学领域的表现，从而推动信息检索技术的发展。

解决学术问题

nfcorpus数据集解决了医学信息检索中的关键问题，如如何高效地从大量医学文献中提取相关信息。通过提供结构化的文档数据，研究者能够开发出更精确的检索模型，提升医学文献的检索效率和准确性。这对于医学研究和临床决策具有重要意义，能够帮助医生和研究人员快速获取所需信息。

实际应用

在实际应用中，nfcorpus数据集被广泛应用于医学信息检索系统的开发和优化。例如，医院和研究机构可以利用该数据集训练和测试检索模型，以提高医学文献的检索效率。此外，该数据集还可用于开发智能医疗助手，帮助医生快速查找相关文献，提升临床决策的准确性和效率。

数据集最近研究