five

irds/nfcorpus

收藏
Hugging Face2023-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/irds/nfcorpus
下载链接
链接失效反馈
官方服务:
资源简介:
--- pretty_name: '`nfcorpus`' viewer: false source_datasets: [] task_categories: - text-retrieval --- # Dataset Card for `nfcorpus` The `nfcorpus` dataset, provided by the [ir-datasets](https://ir-datasets.com/) package. For more information about the dataset, see the [documentation](https://ir-datasets.com/nfcorpus#nfcorpus). # Data This dataset provides: - `docs` (documents, i.e., the corpus); count=5,371 This dataset is used by: [`nfcorpus_dev`](https://huggingface.co/datasets/irds/nfcorpus_dev), [`nfcorpus_dev_nontopic`](https://huggingface.co/datasets/irds/nfcorpus_dev_nontopic), [`nfcorpus_dev_video`](https://huggingface.co/datasets/irds/nfcorpus_dev_video), [`nfcorpus_test`](https://huggingface.co/datasets/irds/nfcorpus_test), [`nfcorpus_test_nontopic`](https://huggingface.co/datasets/irds/nfcorpus_test_nontopic), [`nfcorpus_test_video`](https://huggingface.co/datasets/irds/nfcorpus_test_video), [`nfcorpus_train`](https://huggingface.co/datasets/irds/nfcorpus_train), [`nfcorpus_train_nontopic`](https://huggingface.co/datasets/irds/nfcorpus_train_nontopic), [`nfcorpus_train_video`](https://huggingface.co/datasets/irds/nfcorpus_train_video) ## Usage ```python from datasets import load_dataset docs = load_dataset('irds/nfcorpus', 'docs') for record in docs: record # {'doc_id': ..., 'url': ..., 'title': ..., 'abstract': ...} ``` Note that calling `load_dataset` will download the dataset (or provide access instructions when it's not public) and make a copy of the data in 🤗 Dataset format. ## Citation Information ``` @inproceedings{Boteva2016Nfcorpus, title="A Full-Text Learning to Rank Dataset for Medical Information Retrieval", author = "Vera Boteva and Demian Gholipour and Artem Sokolov and Stefan Riezler", booktitle = "Proceedings of the European Conference on Information Retrieval ({ECIR})", location = "Padova, Italy", publisher = "Springer", year = 2016 } ```

数据集显示名称:`nfcorpus` 内置查看器:禁用 源数据集列表:无 任务类别: - 文本检索 # `nfcorpus` 数据集卡片 本`nfcorpus`数据集由[ir-datasets](https://ir-datasets.com/)工具包提供。如需了解该数据集的更多详情,请参阅[官方文档](https://ir-datasets.com/nfcorpus#nfcorpus)。 # 数据 本数据集包含以下内容:`docs`(文档,即语料库),共计5371条。 本数据集的下游使用子集包括:[`nfcorpus_dev`](https://huggingface.co/datasets/irds/nfcorpus_dev)、[`nfcorpus_dev_nontopic`](https://huggingface.co/datasets/irds/nfcorpus_dev_nontopic)、[`nfcorpus_dev_video`](https://huggingface.co/datasets/irds/nfcorpus_dev_video)、[`nfcorpus_test`](https://huggingface.co/datasets/irds/nfcorpus_test)、[`nfcorpus_test_nontopic`](https://huggingface.co/datasets/irds/nfcorpus_test_nontopic)、[`nfcorpus_test_video`](https://huggingface.co/datasets/irds/nfcorpus_test_video)、[`nfcorpus_train`](https://huggingface.co/datasets/irds/nfcorpus_train)、[`nfcorpus_train_nontopic`](https://huggingface.co/datasets/irds/nfcorpus_train_nontopic)、[`nfcorpus_train_video`](https://huggingface.co/datasets/irds/nfcorpus_train_video)。 ## 使用方法 python from datasets import load_dataset docs = load_dataset('irds/nfcorpus', 'docs') for record in docs: record # {'doc_id': ..., 'url': ..., 'title': ..., 'abstract': ...} 请注意,调用`load_dataset`函数将自动下载该数据集(若数据集未公开,则会提供访问指引),并将其转换为🤗数据集格式进行本地存储。 ## 引用信息 @inproceedings{Boteva2016Nfcorpus, title="A Full-Text Learning to Rank Dataset for Medical Information Retrieval", author = "Vera Boteva and Demian Gholipour and Artem Sokolov and Stefan Riezler", booktitle = "Proceedings of the European Conference on Information Retrieval ({ECIR})", location = "Padova, Italy", publisher = "Springer", year = 2016 }
提供机构:
irds
原始信息汇总

数据集概述

数据集名称

nfcorpus

数据集来源

ir-datasets 包提供。

数据集内容

  • 数据类型: docs (文档,即语料库)
  • 文档数量: 5,371

数据集用途

用于多个相关数据集,包括:

  • nfcorpus_dev
  • nfcorpus_dev_nontopic
  • nfcorpus_dev_video
  • nfcorpus_test
  • nfcorpus_test_nontopic
  • nfcorpus_test_video
  • nfcorpus_train
  • nfcorpus_train_nontopic
  • nfcorpus_train_video

使用示例

python from datasets import load_dataset

docs = load_dataset(irds/nfcorpus, docs) for record in docs: record # {doc_id: ..., url: ..., title: ..., abstract: ...}

引用信息

@inproceedings{Boteva2016Nfcorpus, title="A Full-Text Learning to Rank Dataset for Medical Information Retrieval", author = "Vera Boteva and Demian Gholipour and Artem Sokolov and Stefan Riezler", booktitle = "Proceedings of the European Conference on Information Retrieval ({ECIR})", location = "Padova, Italy", publisher = "Springer", year = 2016 }

搜集汇总
数据集介绍
main_image_url
构建方式
nfcorpus数据集由ir-datasets包提供,专为医学信息检索领域的文本检索任务设计。该数据集通过收集和整理医学领域的文献资料构建而成,包含5,371篇文档,涵盖了广泛的医学主题。这些文档经过精心筛选和标注,确保了数据的高质量和适用性。
使用方法
使用nfcorpus数据集时,可通过Hugging Face的datasets库进行加载。用户只需调用load_dataset函数,指定数据集名称和子集类型,即可获取文档数据。加载后的数据以🤗 Dataset格式存储,便于进行后续的文本处理和检索实验。具体使用方法可参考Hugging Face的官方文档和示例代码。
背景与挑战
背景概述
`nfcorpus`数据集由ir-datasets包提供,专为医学信息检索领域的全文学习排序任务而设计。该数据集由Vera Boteva等研究人员于2016年发布,并在欧洲信息检索会议(ECIR)上进行了详细介绍。数据集包含5,371篇文档,涵盖了医学领域的广泛主题,旨在为研究人员提供一个标准化的基准,以评估和开发信息检索算法。`nfcorpus`的发布极大地推动了医学信息检索领域的研究进展,尤其是在学习排序算法的开发和应用方面。
当前挑战
`nfcorpus`数据集在解决医学信息检索问题时面临多重挑战。首先,医学领域的文本通常包含大量专业术语和复杂的语言结构,这对信息检索系统的语义理解能力提出了较高要求。其次,数据集的构建过程中,研究人员需要确保文档的多样性和代表性,以覆盖广泛的医学主题,同时避免数据偏差。此外,医学信息的时效性和准确性也是构建过程中需要特别关注的问题,以确保数据集能够反映最新的医学研究成果。这些挑战不仅影响了数据集的构建质量,也对后续的信息检索算法提出了更高的要求。
常用场景
经典使用场景
nfcorpus数据集在信息检索领域具有重要地位,尤其在医学信息检索方面表现出色。该数据集常用于评估和优化文本检索算法,特别是在学习排序(Learning to Rank)任务中。通过提供丰富的文档集合,研究者能够深入分析不同检索模型在医学领域的表现,从而推动信息检索技术的发展。
解决学术问题
nfcorpus数据集解决了医学信息检索中的关键问题,如如何高效地从大量医学文献中提取相关信息。通过提供结构化的文档数据,研究者能够开发出更精确的检索模型,提升医学文献的检索效率和准确性。这对于医学研究和临床决策具有重要意义,能够帮助医生和研究人员快速获取所需信息。
实际应用
在实际应用中,nfcorpus数据集被广泛应用于医学信息检索系统的开发和优化。例如,医院和研究机构可以利用该数据集训练和测试检索模型,以提高医学文献的检索效率。此外,该数据集还可用于开发智能医疗助手,帮助医生快速查找相关文献,提升临床决策的准确性和效率。
数据集最近研究
最新研究方向
在信息检索领域,`nfcorpus`数据集因其专注于医学信息检索的全文本学习排序任务而备受关注。近年来,随着深度学习技术的快速发展,研究者们开始探索如何利用预训练语言模型(如BERT、GPT等)来提升医学信息检索的准确性和效率。`nfcorpus`数据集为这一研究方向提供了丰富的实验数据,尤其是在处理复杂的医学文本和长文档时,其独特的结构和内容为模型训练和评估提供了重要支持。此外,随着个性化医疗和精准医学的兴起,如何从海量医学文献中快速准确地提取相关信息成为研究热点,`nfcorpus`数据集在这一领域的应用前景广阔,推动了信息检索技术在医疗健康领域的深入发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作