irds/clueweb12_b13_clef-ehealth

Name: irds/clueweb12_b13_clef-ehealth
Creator: irds
Published: 2023-01-05 02:57:07
License: 暂无描述

Hugging Face2023-01-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/irds/clueweb12_b13_clef-ehealth

下载链接

链接失效反馈

官方服务：

资源简介：

clueweb12/b13/clef-ehealth数据集是一个文本检索数据集，包含300个查询（topics）和269,232个相关性评估（qrels），用于评估用户中心的健康信息检索。文档数据来源于irds/clueweb12_b13数据集。

The clueweb12/b13/clef-ehealth dataset is a text retrieval dataset containing 300 query topics and 269,232 relevance assessments (qrels), which is tailored for evaluating user-centric health information retrieval. Its document data is sourced from the irds/clueweb12_b13 dataset.

提供机构：

irds

原始信息汇总

数据集概述

数据集名称

clueweb12/b13/clef-ehealth

数据来源

源数据集：irds/clueweb12_b13

数据内容

queries：查询（即主题），数量为300个。
qrels：相关性评估，数量为269,232个。
docs：文档数据来自irds/clueweb12_b13。

使用方法

python from datasets import load_dataset

queries = load_dataset(irds/clueweb12_b13_clef-ehealth, queries) for record in queries: record # {query_id: ..., text: ...}

qrels = load_dataset(irds/clueweb12_b13_clef-ehealth, qrels) for record in qrels: record # {query_id: ..., doc_id: ..., relevance: ..., trustworthiness: ..., understandability: ..., iteration: ...}

引用信息

@inproceedings{Zuccon2016ClefEhealth, title={The IR Task at the CLEF eHealth Evaluation Lab 2016: User-centred Health Information Retrieval}, author={Guido Zuccon and Joao Palotti and Lorraine Goeuriot and Liadh Kelly and Mihai Lupu and Pavel Pecina and Henning M{"u}ller and Julie Budaher and Anthony Deacon}, booktitle={CLEF}, year={2016} } @inproceedings{Palotti2017ClefEhealth, title={CLEF 2017 Task Overview: The IR Task at the eHealth Evaluation Lab - Evaluating Retrieval Methods for Consumer Health Search}, author={Joao Palotti and Guido Zuccon and Jimmy and Pavel Pecina and Mihai Lupu and Lorraine Goeuriot and Liadh Kelly and Allan Hanbury}, booktitle={CLEF}, year={2017} }

搜集汇总

数据集介绍

构建方式

irds/clueweb12_b13_clef-ehealth数据集是基于clueweb12_b13子集，针对eHealth领域构建的。该数据集通过整合查询（topics）和相关性评估（relevance assessments）的方式，形成了针对健康信息检索任务的专门数据集。

特点

该数据集的特点在于其专注于医疗健康领域，包含300个查询实例以及269,232个相关性评估记录，为研究用户中心的健康信息检索提供了丰富的数据资源。此外，数据集的构建还考虑了信息的可信度和可理解性，为评估检索方法提供了多维度的评价标准。

使用方法

使用此数据集时，可以通过调用load_dataset函数从HuggingFace的datasets库中加载queries和qrels两部分数据。queries包含查询的详细信息，而qrels则包含查询与文档的相关性、可信度、可理解性等评估信息。加载的数据将自动转换为🤗 Dataset格式，便于后续的处理和分析。

背景与挑战

背景概述

在信息检索领域，随着互联网医疗信息的爆炸性增长，如何高效准确地检索健康相关信息成为了一个关键问题。`clueweb12/b13/clef-ehealth`数据集，由[ir-datasets](https://ir-datasets.com/)提供，是在此背景下应运而生的重要资源。该数据集始建于2016年，由Guido Zuccon等研究人员主导，依托于CLEF eHealth Evaluation Lab评测活动，旨在促进用户中心的健康信息检索研究。数据集包含300个查询主题和超过26万条相关性评估记录，为研究人员提供了一个评估和改进信息检索技术在健康领域应用的平台，对健康信息检索领域产生了显著影响。

当前挑战

该数据集在构建和应用过程中面临诸多挑战。首先，领域问题层面，如何确保检索结果的准确性和相关性，特别是在健康信息这一专业性极强的领域，是主要的技术挑战。其次，构建过程中的挑战包括如何处理大规模数据集的存储和访问问题，以及如何准确评估和标注文档的相关性、可信度和可理解性。这些挑战要求研究人员在算法设计、数据处理和评估体系等方面进行深入探索和创新。

常用场景

经典使用场景

在信息检索领域，`clueweb12/b13/clef-ehealth`数据集的经典使用场景在于评估和优化健康信息检索系统。该数据集提供了精心设计的查询（主题）和相关度评估，使得研究人员能够对检索系统的性能进行量化分析，从而提升系统的检索相关性和用户体验。

实际应用

在实际应用中，`clueweb12/b13/clef-ehealth`数据集可被用于开发和测试面向消费者的健康信息搜索引擎。这些搜索引擎能够帮助用户在互联网上找到可靠、易懂的健康相关信息，从而促进公众健康意识和自我管理能力的提升。

衍生相关工作

该数据集衍生了一系列相关的经典工作，包括对健康信息检索系统的评价指标、算法优化策略以及用户行为分析的研究。这些研究进一步拓展了信息检索技术在医疗健康领域的应用范围，并促进了跨学科的合作与发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集