ImperialCollegeLondon/health_fact

Name: ImperialCollegeLondon/health_fact
Creator: ImperialCollegeLondon
Published: 2024-01-18 11:05:17
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/ImperialCollegeLondon/health_fact

下载链接

链接失效反馈

官方服务：

资源简介：

PUBHEALTH是一个用于公共健康声明可解释自动事实核查的综合数据集。数据集中的每个实例都有一个相关的真实性标签（真实、虚假、未证实、混合），并且每个实例都有一个解释文本字段，该解释是为该声明分配特定真实性标签的理由。数据集包含英文文本，大小为10K到100K之间，主要用于文本分类任务，特别是多类分类和事实核查。

PUBHEALTH is a comprehensive dataset for explainable automated fact-checking of public health claims. Each instance in the dataset is associated with a truthfulness label (true, false, unproven, mixed), and each instance includes an explanatory text field that provides the rationale for assigning the corresponding truthfulness label to the claim. The dataset consists of English-language content, with a total scale ranging from 10,000 to 100,000 instances, and is primarily intended for text classification tasks, especially multi-class classification and fact-checking.

提供机构：

ImperialCollegeLondon

原始信息汇总

数据集概述

数据集描述

数据集摘要

PUBHEALTH是一个用于可解释自动化事实核查的公共健康声明的综合数据集。每个实例都有一个相关的真实性标签（真、假、未证实、混合），并且每个实例都有一个解释文本字段，该解释是对声明被赋予特定真实性标签的理由。

支持的任务和排行榜

[更多信息需要]

语言

数据集中的文本为英语。

数据集结构

数据实例

以下是PUBHEALTH数据集的一个示例实例：

字段	示例
claim	过期的蛋糕和煎饼混合粉是有毒的。
explanation	真实部分：含有霉菌的煎饼和蛋糕混合粉可能导致危及生命的过敏反应。虚假部分：过期的煎饼和蛋糕混合粉对通常健康的人并不危险，包装烘焙产品中的酵母不会“随着时间发展出孢子”。
label	混合
author(s)	David Mikkelson
date published	2006年4月19日
tags	食品，过敏，烘焙，蛋糕
main_text	2006年4月，一位14岁少年食用了发霉的煎饼混合粉的经历被描述在广受欢迎的报纸专栏Dear Abby中。该事件随后在互联网上广泛传播，许多家庭主妇担心他们储藏室里的煎饼和其他烘焙混合粉的安全性[...]
evidence sources	[1] Bennett, Allan and Kim Collins. “An Unusual Case of Anaphylaxis: Mold in Pancake Mix.” American Journal of Forensic Medicine & Pathology. September 2001 (pp. 292-295). [2] Phillips, Jeanne. “Dear Abby.” 14 April 2006 [syndicated column].

数据字段

上述数据实例中提到的字段。

数据分割

	# 实例
train.tsv	9832
dev.tsv	1221
test.tsv	1235
total	12288

数据集创建

策划理由

该数据集是为了探索难以验证的声明的事实核查，这些声明需要来自新闻领域之外的专业知识，在这种情况下是生物医学和公共卫生专业知识。

它也是为了应对缺乏提供金标准自然语言解释的事实核查数据集而创建的。

源数据

初始数据收集和规范化

该数据集是从以下事实核查、新闻评论和新闻网站中获取的：

URL	类型
http://snopes.com/	事实核查
http://politifact.com/	事实核查
http://truthorfiction.com/	事实核查
https://www.factcheck.org/	事实核查
https://fullfact.org/	事实核查
https://apnews.com/	新闻
https://uk.reuters.com/	新闻
https://www.healthnewsreview.org/	健康新闻评论

源语言生产者是谁？

[更多信息需要]

注释

注释过程

[更多信息需要]

注释者是谁？

[更多信息需要]

个人和敏感信息

据我们所知没有，但如果我们被指出错误，我们将对数据集进行适当的更正。

使用数据的注意事项

数据集的社会影响

[更多信息需要]

偏见的讨论

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集策展人

该数据集由Neema Kotonya和Francesca Toni创建，用于他们的研究论文“可解释的自动化事实核查公共健康声明”，该论文在2020年EMNLP上发表。

许可信息

MIT许可证

引用信息

@inproceedings{kotonya-toni-2020-explainable, title = "Explainable Automated Fact-Checking for Public Health Claims", author = "Kotonya, Neema and Toni, Francesca", booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)", month = nov, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.emnlp-main.623", pages = "7740--7754", }

贡献

感谢@bhavitvyamalik添加此数据集。

搜集汇总

数据集介绍

构建方式

PUBHEALTH数据集的构建旨在解决公共健康领域中难以验证的声明的自动事实核查问题。该数据集从多个事实核查和新闻网站中收集原始数据，包括Snopes、Politifact、TruthOrFiction、FactCheck.org、FullFact、AP News、Reuters UK和Health News Review。数据集的构建过程中，特别强调了提供自然语言解释的重要性，以确保每个声明的验证标签都有相应的解释文本。这种设计旨在为模型提供更丰富的上下文信息，从而提高事实核查的准确性和可解释性。

特点

PUBHEALTH数据集的主要特点在于其丰富的解释文本和多样的标签类别。每个实例不仅包含声明的验证标签（如‘true’、‘false’、‘unproven’、‘mixture’），还附有详细的解释文本，解释为何该声明被赋予特定的验证标签。此外，数据集涵盖了广泛的公共健康主题，包括食品、过敏、烘焙和蛋糕等，确保了数据集的多样性和广泛适用性。

使用方法

PUBHEALTH数据集适用于文本分类任务，特别是多类别分类和事实核查。用户可以通过加载数据集的训练、验证和测试分割来训练和评估模型。数据集的特征映射包括声明文本、验证标签和解释文本等字段，用户可以根据这些字段进行模型输入和输出的配置。此外，数据集提供了多种评估指标，如准确率、F1分数、精确率和召回率，以全面评估模型的性能。

背景与挑战

背景概述

在公共卫生领域，准确的信息传播至关重要。ImperialCollegeLondon/health_fact数据集，由Neema Kotonya和Francesca Toni创建，旨在支持可解释的自动化事实核查，特别是在公共卫生声明方面。该数据集包含了9832条训练实例、1235条测试实例和1225条验证实例，涵盖了多种公共卫生相关声明及其真实性标签（如‘true’、‘false’、‘unproven’和‘mixture’）。通过提供详细的解释文本，该数据集不仅有助于机器学习模型的训练，还为研究人员提供了深入理解公共卫生声明真实性的工具。

当前挑战

尽管ImperialCollegeLondon/health_fact数据集在公共卫生事实核查领域具有重要意义，但其构建过程中仍面临若干挑战。首先，数据集的标注依赖于专家生成，这可能导致标注过程的复杂性和成本增加。其次，数据集的来源多样，包括多个事实核查和新闻网站，这可能引入不同网站间的偏见和标准差异。此外，数据集的解释文本虽然提供了丰富的信息，但也增加了数据处理的复杂性，特别是在模型训练和评估阶段。最后，数据集的规模和多样性虽然较大，但仍需进一步扩展以覆盖更广泛的公共卫生声明和情境。

常用场景

经典使用场景

在公共卫生领域，PUBHEALTH数据集的经典使用场景主要集中在自动化事实核查。该数据集通过提供详细的解释文本，帮助研究人员和开发者构建能够识别和验证公共卫生声明的模型。这些模型可以用于自动评估新闻文章、社交媒体帖子或其他公开声明的真实性，从而提高公众对健康信息的信任度。

实际应用

在实际应用中，PUBHEALTH数据集被广泛用于构建和优化公共卫生信息的事实核查系统。这些系统可以部署在新闻媒体、社交媒体平台或公共卫生机构中，用于实时监测和验证健康相关声明。通过这种方式，数据集有助于减少错误信息的传播，提升公众健康信息的准确性和可靠性。

衍生相关工作

PUBHEALTH数据集的发布催生了一系列相关研究工作，特别是在自动化事实核查和可解释性机器学习领域。例如，研究人员利用该数据集开发了新的模型架构，以提高事实核查的准确性；同时，也有工作专注于如何更好地解释这些模型的决策过程，以增强其透明度和可信度。这些研究不仅推动了技术的发展，也为公共卫生领域的信息管理提供了新的工具和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集