bigbio/pubhealth
收藏Hugging Face2022-12-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigbio/pubhealth
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
bigbio_language:
- English
license: mit
multilinguality: monolingual
bigbio_license_shortname: MIT
pretty_name: PUBHEALTH
homepage: https://github.com/neemakot/Health-Fact-Checking/tree/master/data
bigbio_pubmed: False
bigbio_public: True
bigbio_tasks:
- TEXT_CLASSIFICATION
---
# Dataset Card for PUBHEALTH
## Dataset Description
- **Homepage:** https://github.com/neemakot/Health-Fact-Checking/tree/master/data
- **Pubmed:** False
- **Public:** True
- **Tasks:** TXTCLASS
A dataset of 11,832 claims for fact- checking, which are related a range of health topics
including biomedical subjects (e.g., infectious diseases, stem cell research), government healthcare policy
(e.g., abortion, mental health, women’s health), and other public health-related stories
## Citation Information
```
@article{kotonya2020explainable,
title={Explainable automated fact-checking for public health claims},
author={Kotonya, Neema and Toni, Francesca},
journal={arXiv preprint arXiv:2010.09926},
year={2020}
}
```
---
语言:英语
BigBio语言:英语
许可证:MIT许可证
多语言属性:单语言
BigBio许可证简称:MIT
官方名称:PUBHEALTH
项目主页:https://github.com/neemakot/Health-Fact-Checking/tree/master/data
BigBio关联PubMed:否
BigBio公开状态:是
BigBio对应任务:文本分类
---
# PUBHEALTH数据集卡片
## 数据集描述
- **主页:** https://github.com/neemakot/Health-Fact-Checking/tree/master/data
- **PubMed关联:** 否
- **公开状态:** 是
- **任务:** 文本分类
本数据集包含11832条公共卫生事实核查用主张,涵盖多类健康主题,包括生物医学主题(如传染病、干细胞研究)、政府医疗政策(如堕胎、心理健康、女性健康)以及其他公共卫生相关议题。
## 引用信息
@article{kotonya2020explainable,
title={Explainable automated fact-checking for public health claims},
author={Kotonya, Neema and Toni, Francesca},
journal={arXiv preprint arXiv:2010.09926},
year={2020}
}
提供机构:
bigbio
原始信息汇总
数据集卡片 for PUBHEALTH
数据集描述
- 主页: https://github.com/neemakot/Health-Fact-Checking/tree/master/data
- PubMed: False
- 公开: True
- 任务: TEXT_CLASSIFICATION
这是一个包含11,832条声明的数据集,用于事实核查,涉及一系列健康主题,包括生物医学主题(如传染病、干细胞研究)、政府医疗政策(如堕胎、心理健康、女性健康)以及其他公共卫生相关的故事。
引用信息
@article{kotonya2020explainable, title={Explainable automated fact-checking for public health claims}, author={Kotonya, Neema and Toni, Francesca}, journal={arXiv preprint arXiv:2010.09926}, year={2020} }
搜集汇总
数据集介绍

构建方式
在公共卫生信息验证领域,PUBHEALTH数据集的构建体现了严谨的学术方法。研究者从广泛的公共卫生话题中,系统性地收集了11,832条待验证声明,这些声明覆盖了生物医学主题、政府医疗政策及各类公共卫生相关叙事。数据集的构建过程注重来源的多样性与声明的代表性,旨在为自动化事实核查研究提供一个结构清晰、主题聚焦的基准测试平台。
特点
该数据集的核心特点在于其主题的专一性与声明的复杂性。所有声明均严格限定于公共卫生范畴,涉及从传染病到医疗政策等多层次议题,这为模型理解专业领域知识提出了挑战。数据集的规模适中,每条声明都关联着需要验证的事实背景,其结构设计便于进行细粒度的文本分类与可解释性分析,为深入研究事实核查的逻辑推理过程提供了宝贵资源。
使用方法
使用PUBHEALTH数据集时,研究者主要将其应用于文本分类任务,特别是针对公共卫生声明的事实核查。典型的工作流程包括加载数据集、预处理文本、并利用其提供的标签训练或评估分类模型。该数据集可直接通过Hugging Face平台或关联的GitHub仓库获取,其标准化的格式确保了能够便捷地集成到现有的自然语言处理实验框架中,推动自动化事实核查技术的发展。
背景与挑战
背景概述
在公共卫生信息传播领域,虚假或误导性声明的泛滥对公众健康构成了严峻挑战。为应对这一难题,Neema Kotonya与Francesca Toni于2020年共同创建了PUBHEALTH数据集,该数据集收录了11,832条涉及生物医学主题、政府医疗政策及其他公共卫生议题的声明。这一资源的构建旨在推动可解释性自动事实核查技术的研究,其核心研究问题聚焦于如何利用计算方法对复杂的健康声明进行可信度验证与解释生成。该数据集的出现,显著促进了自然语言处理与公共卫生交叉领域的学术探索,为开发更透明、可靠的健康信息核查系统提供了关键的数据基础。
当前挑战
PUBHEALTH数据集致力于解决公共卫生声明自动事实核查这一复杂任务,其首要挑战在于健康声明本身具有高度的专业性与语境依赖性,涉及从传染病学到医疗政策的广泛领域,要求模型不仅理解表层语义,还需具备深层的领域知识推理能力。其次,构建过程中的挑战体现在数据标注的复杂性上,每条声明都需要关联权威证据并进行多维度的事实性判断,这要求标注者兼具专业医学知识与严谨的逻辑分析能力,以确保标注质量与一致性。这些挑战共同指向了开发既能高效分类又能提供合理解释的智能系统的核心难点。
常用场景
经典使用场景
在公共卫生信息验证领域,PUBHEALTH数据集为自动事实核查任务提供了关键资源。该数据集包含超过一万条健康相关声明,涵盖传染病、干细胞研究及医疗政策等主题,常用于训练和评估自然语言处理模型,以识别虚假或误导性健康信息。研究人员利用其结构化标注,开发分类算法,区分声明的真实性,从而提升公共卫生传播的准确性。
实际应用
在实际应用中,PUBHEALTH数据集被整合到健康信息平台和新闻核查系统中。例如,社交媒体公司和公共卫生机构利用基于该数据集训练的模型,自动筛查用户生成内容中的健康声明,及时标记潜在虚假信息,辅助公众做出明智决策。这有助于遏制健康谣言的传播,维护公共健康安全,尤其在疫情等危机时期发挥重要作用。
衍生相关工作
围绕PUBHEALTH数据集,已衍生出多项经典研究工作。例如,Kotonya和Toni(2020)提出的可解释自动事实核查框架,为该领域奠定了基础。后续研究扩展了多模态分析和跨语言适配,进一步提升了模型的泛化能力。这些工作推动了健康事实核查技术的创新,为更广泛的虚假信息检测研究提供了参考范式。
以上内容由遇见数据集搜集并总结生成



