five

HealthFC|医疗事实核查数据集|证据基础医疗数据集

收藏
github2024-05-23 更新2024-05-31 收录
医疗事实核查
证据基础医疗
下载链接:
https://github.com/jvladika/HealthFC
下载链接
链接失效反馈
资源简介:
HealthFC是一个用于基于证据的医疗事实核查的数据集,包含医疗声明、事实核查文章的主要文本、发现的临床研究、最终声明裁决的解释等详细信息。

HealthFC is a dataset designed for evidence-based medical fact-checking, encompassing detailed information such as medical claims, the main text of fact-checking articles, discovered clinical studies, and explanations of the final claim verdicts.
创建时间:
2023-02-22
原始信息汇总

数据集概述

数据集名称

  • HealthFC

数据集文件

  • healthFC_annotated.csv

数据集内容

  • claim: 健康声明,以研究问题的形式提出。
  • text: 事实核查文章的主要文本。
  • studies: 事实核查文章中详细描述的临床研究。
  • explanation: 最终声明裁决的解释,以简短总结段落形式呈现。
  • sentences: 完整事实核查文章的句子列表(合并文本和研究)。
  • ids: 在sentences列表中手动标注的黄金证据句子的ID。
  • verdict: 医疗团队对声明的原始裁决。
  • label: 裁决映射到三个标签之一:
    • 支持 (0)
    • 信息不足 (1)
    • 反驳 (2)
  • title: 文章的原始标题。
  • date: 文章最初发布的日期。
  • author: 文章的作者。
  • url: 包含文章的URL。

数据集版本

  • en_xyz: 英文版本。
  • de_xyz: 德文版本。
AI搜集汇总
数据集介绍
main_image_url
构建方式
HealthFC数据集的构建基于对健康声明的医学事实核查,通过整合来自多个来源的证据,形成一个综合性的数据集。该数据集包括英文和德文版本,每个版本均包含详细的字段,如健康声明、事实核查文章的主要文本、相关临床研究、最终声明裁定的解释等。此外,数据集还提供了手动标注的金标准证据句子的索引,便于研究人员直接访问关键证据。
使用方法
使用HealthFC数据集时,研究人员可以通过访问CSV文件中的各个字段,获取健康声明、事实核查文章、临床研究细节以及最终裁定的解释。特别地,通过索引句子列表中的ID,可以直接定位到支持或反驳声明的金标准证据句子。此外,数据集还提供了文章的原始标题、发布日期、作者信息和URL,便于进行更深入的分析和验证。
背景与挑战
背景概述
HealthFC数据集由Juraj Vladika、Phillip Schneider和Florian Matthes等研究人员创建,旨在通过基于证据的医学事实核查来验证健康声明。该数据集于2024年由LREC-COLING会议接受并发布,标志着在医学信息验证领域的重要进展。HealthFC的核心研究问题是如何利用临床研究和事实核查文章中的信息,对健康声明进行准确评估。这一研究不仅提升了医学信息的可靠性,还为相关领域的研究提供了宝贵的资源。
当前挑战
HealthFC数据集在构建过程中面临多项挑战。首先,如何从海量的医学文献中筛选出与特定健康声明相关的临床研究,是一个复杂且耗时的任务。其次,将这些研究结果与事实核查文章中的信息进行匹配,并生成准确的评估结论,需要高度专业化的知识和技能。此外,数据集的多语言版本(如英语和德语)增加了跨语言信息处理的难度。最后,确保数据集的标注一致性和可靠性,也是一项重要的挑战。
常用场景
经典使用场景
HealthFC数据集在医学事实核查领域中具有经典应用,主要用于验证健康声明的准确性。通过分析数据集中的健康声明、事实核查文章文本、临床研究细节以及最终的声明裁决,研究人员能够构建和训练模型,以自动评估健康声明的真实性。这种应用不仅提高了事实核查的效率,还增强了公众对健康信息的信任。
解决学术问题
HealthFC数据集解决了医学事实核查中的关键学术问题,即如何基于证据验证健康声明的真实性。通过提供详细的声明、相关文本、研究细节和裁决标签,该数据集为研究人员提供了一个标准化的框架,用于开发和评估事实核查算法。这不仅推动了自然语言处理技术在医学领域的应用,还为公众健康信息的准确性提供了科学依据。
实际应用
在实际应用中,HealthFC数据集被广泛用于开发和部署健康声明验证系统。例如,医疗机构和健康信息平台可以利用该数据集训练的模型,自动筛选和验证发布在平台上的健康声明,确保信息的准确性和可靠性。此外,政府和非营利组织也可以使用这些模型来监控和评估公共卫生信息的传播,从而提高公众健康教育的质量。
数据集最近研究
最新研究方向
在医疗健康领域,HealthFC数据集的最新研究方向聚焦于基于证据的医学事实核查。该数据集通过整合健康声明、事实核查文章、临床研究细节及最终判决解释,为研究人员提供了一个全面的工具,以验证和评估健康声明的准确性。这一研究方向不仅有助于提升公众对健康信息的信任度,还为医疗决策提供了更为可靠的依据。随着信息时代的快速发展,HealthFC数据集的应用前景广阔,尤其在应对虚假健康信息和提升医疗透明度方面具有重要意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录