ImperialCollegeLondon/health_fact
收藏数据集概述
数据集描述
数据集摘要
PUBHEALTH是一个用于可解释自动化事实核查的公共健康声明的综合数据集。每个实例都有一个相关的真实性标签(真、假、未证实、混合),并且每个实例都有一个解释文本字段,该解释是对声明被赋予特定真实性标签的理由。
支持的任务和排行榜
[更多信息需要]
语言
数据集中的文本为英语。
数据集结构
数据实例
以下是PUBHEALTH数据集的一个示例实例:
| 字段 | 示例 |
|---|---|
| claim | 过期的蛋糕和煎饼混合粉是有毒的。 |
| explanation | 真实部分:含有霉菌的煎饼和蛋糕混合粉可能导致危及生命的过敏反应。虚假部分:过期的煎饼和蛋糕混合粉对通常健康的人并不危险,包装烘焙产品中的酵母不会“随着时间发展出孢子”。 |
| label | 混合 |
| author(s) | David Mikkelson |
| date published | 2006年4月19日 |
| tags | 食品,过敏,烘焙,蛋糕 |
| main_text | 2006年4月,一位14岁少年食用了发霉的煎饼混合粉的经历被描述在广受欢迎的报纸专栏Dear Abby中。该事件随后在互联网上广泛传播,许多家庭主妇担心他们储藏室里的煎饼和其他烘焙混合粉的安全性[...] |
| evidence sources | [1] Bennett, Allan and Kim Collins. “An Unusual Case of Anaphylaxis: Mold in Pancake Mix.” American Journal of Forensic Medicine & Pathology. September 2001 (pp. 292-295). [2] Phillips, Jeanne. “Dear Abby.” 14 April 2006 [syndicated column]. |
数据字段
上述数据实例中提到的字段。
数据分割
| # 实例 | |
|---|---|
| train.tsv | 9832 |
| dev.tsv | 1221 |
| test.tsv | 1235 |
| total | 12288 |
数据集创建
策划理由
该数据集是为了探索难以验证的声明的事实核查,这些声明需要来自新闻领域之外的专业知识,在这种情况下是生物医学和公共卫生专业知识。
它也是为了应对缺乏提供金标准自然语言解释的事实核查数据集而创建的。
源数据
初始数据收集和规范化
该数据集是从以下事实核查、新闻评论和新闻网站中获取的:
| URL | 类型 |
|---|---|
| http://snopes.com/ | 事实核查 |
| http://politifact.com/ | 事实核查 |
| http://truthorfiction.com/ | 事实核查 |
| https://www.factcheck.org/ | 事实核查 |
| https://fullfact.org/ | 事实核查 |
| https://apnews.com/ | 新闻 |
| https://uk.reuters.com/ | 新闻 |
| https://www.healthnewsreview.org/ | 健康新闻评论 |
源语言生产者是谁?
[更多信息需要]
注释
注释过程
[更多信息需要]
注释者是谁?
[更多信息需要]
个人和敏感信息
据我们所知没有,但如果我们被指出错误,我们将对数据集进行适当的更正。
使用数据的注意事项
数据集的社会影响
[更多信息需要]
偏见的讨论
[更多信息需要]
其他已知限制
[更多信息需要]
附加信息
数据集策展人
该数据集由Neema Kotonya和Francesca Toni创建,用于他们的研究论文“可解释的自动化事实核查公共健康声明”,该论文在2020年EMNLP上发表。
许可信息
MIT许可证
引用信息
@inproceedings{kotonya-toni-2020-explainable, title = "Explainable Automated Fact-Checking for Public Health Claims", author = "Kotonya, Neema and Toni, Francesca", booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)", month = nov, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.emnlp-main.623", pages = "7740--7754", }
贡献
感谢@bhavitvyamalik添加此数据集。




