five

Global tuberculosis report 2024|结核病数据集|公共卫生数据集

收藏
github2024-11-01 更新2024-11-28 收录
结核病
公共卫生
下载链接:
https://github.com/GTB-TME/gtbreport2024
下载链接
链接失效反馈
资源简介:
用于开发世界卫生组织2024年全球结核病报告的数据集,包括从WHO健康数据中心、全球基金、全球卫生观察站等多个来源下载的指标数据。
创建时间:
2024-10-28
原始信息汇总

WHO全球结核病报告2024

数据集概述

该数据集用于开发世界卫生组织的《2024年全球结核病报告》。报告于2024年10月29日发布,地址为https://www.who.int/teams/global-tuberculosis-programme/tb-reports/global-tuberculosis-report-2024/。

数据集结构

数据集包含多个子项目,用于生成结核病负担估计并生成报告的网页和PDF。子项目通过使用共同的数据文件进行链接,这些文件既作为输入,也作为其他子项目使用的生成输出。

文件夹结构

  • data: 报告使用的数据集

    • datahub: 从WHO健康数据中心下载的选定指标,包括UHC服务指数
    • gf: 全球基金关于捐赠者承诺的数据
    • gho: 从WHO全球健康观察站下载的选定指标,包括BCG疫苗接种覆盖率和灾难性健康支出
    • gtb: 从WHO全球结核病数据库提取的R二进制数据集
      • other: 国家列表、人口估计、参考列表、调查结果和外部指标
      • snapshot_yyyy-mm-dd: 国家报告数据的快照
    • ihme: 来自健康指标与评估研究所的生命统计数据
    • imf: 来自国际货币基金组织的经济数据
    • kff: 来自凯撒家庭基金会的经济数据
    • mortality: 来自WHO生命统计数据库的生命统计数据
    • nhe: 来自WHO全球卫生支出数据库的国家卫生账户数据
    • oecd: 来自经济合作与发展组织的经济数据
    • pcs: 已完成患者成本调查的总结结果
    • ps: 在WHO全球结核病数据库中不可用的患病率调查的总结结果
    • unaids: 来自UNAIDS的HIV估计
    • unore: 来自联合国财政部的联合国运营汇率
    • wb: 来自世界银行的经济数据
  • disaggregation: Pete Dodd的R脚本,用于按年龄组和性别估计发病率和死亡率

  • doc: 用于国家向WHO报告数据的基于网页的数据收集表单的PDF版本,显示数据库变量名称

  • drtb: Pete Dodd的R和Stan脚本,用于估计耐药结核病负担

  • dynamic: Nim Arinaminpathy的Matlab代码,用于动态建模2020-2023年期间选定国家的结核病发病率和死亡率

  • finance: Takuya Yamanaka的R代码,用于分析结核病融资数据

  • import: R脚本,用于从外部来源和WHO全球结核病数据库下载数据到相关的~/data/文件夹,以及加载保存的GTB数据文件到内存

  • inc_mort: Mathieu Bastard和Philippe Glaziou的R脚本,用于生成结核病发病率和死亡率的估计

  • lives_saved: Takuya Yamanaka和Philippe Glaziou的R脚本,用于生成自2005年以来通过结核病治疗和ART避免的死亡人数的估计

  • report: Mathieu Bastard、Irwin Law、Hazim Timimi和Takuya Yamanaka的R Markdown脚本,用于生成2024年WHO全球结核病报告网页和报告PDF的表格、静态图表、交互式Kendo UI图表和文本

全球结核病数据库数据集

以下部分显示了往年选择的数据对象名称。如果使用load_gtb()函数,则无需知道数据对象是否属于快照或其他部分,代码也不必使用相同的数据对象名称。

快照数据

  • agg: TB/HIV指标,用于从view_TME_master_TBHIV_for_aggregates计算聚合
  • covid: COVID对服务和UNHLM承诺响应的影响,来自view_TME_master_covid_unhlm
  • drfq: 用于估计RR-TB患者中氟喹诺酮耐药性的DRS记录,来自view_DRS_for_estimation_sldst
  • drhnew: 用于估计新TB患者中HR-TB的DRS记录,来自view_DRS_for_estimation_new_INH
  • drhret: 用于估计先前治疗过的TB患者中HR-TB的DRS记录,来自view_DRS_for_estimation_ret_INH
  • drnew: 用于估计新TB患者中RR-TB的DRS记录,来自view_DRS_for_estimation_new
  • drret: 用于估计先前治疗过的TB患者中RR-TB的DRS记录,来自view_DRS_for_estimation_ret
  • drroutine: 常规药物耐药性监测记录,来自view_TME_master_dr_surveillance
  • finance: TB财务和卫生服务利用,来自view_TME_master_budget_expenditure
  • ltbi: 儿童中TPT覆盖率的估计(从报告数据中得出的数字),来自view_TME_estimates_ltbi
  • monthly: 临时的月度或季度通知,来自dcf.latest_provisional_c_newinc
  • sty: 服务、PPM、社区参与、M&E系统,来自view_TME_master_strategy
  • tb: TB通知,来自view_TME_master_notifications
  • tpt: TB预防性治疗,来自view_TME_master_contacts_tpt
  • tx: 治疗结果,来自view_TME_master_outcomes
  • vrgtb: 国家报告的VR数据,来自dcf.latest_vr

其他数据

解释性数据

  • dic: 数据字典,来自view_TME_data_dictionary
  • codes: 分类变量使用的代码的含义,来自view_TME_data_codes

参考数据:国家、国家组、人口和SDG指标

  • cty: 4种语言的国家和地区名称、代码、WHO区域和状态,来自view_TME_master_report_country
  • datacoll: 每个国家-数据收集年组合的数据收集表单选项设置,来自view_TME_master_data_collection
  • grptypes: 按主题分组国家的方式,来自view_country_group_types
  • grp: 每个分组主题内的国家组(例如,世界银行收入分类中的高、中上、中下和低4个收入组),来自view_country_groups
  • grpmbr: 属于每个国家组的成员国家,来自view_country_group_membership
  • pop: 联合国人口司的人口估计,来自view_TME_estimates_population
  • sdg: 与TB发病率相关的SDG指标数据和代码,来自external_indicators.view_indicator_data
  • sdgdef: SDG指标的全名及其来源,来自"external_indicators.view_indicator_definition

调查和调查结果

  • svy.cc: 灾难性成本调查的结果,来自survey.view_catastrophic_costs_survey
  • svy.prev: 来自患病率调查的患病率估计,来自survey.view_prevalence_survey_estimates
  • svy.prevcases: 患病率调查中发现的TB病例数,来自survey.view_prevalence_survey_cases
  • svy.prevchar: 患病率调查的特征,来自survey.view_prevalence_survey

调查记录中使用的代码

  • svy.agegr: 年龄组代码,来自survey.age_group
  • svy.areatype: 地区类型代码,来自survey.area_type
  • svy.casetype: 病例类型代码,来自survey.case_type
  • svy.patientgr: 患者组代码,来自survey.patient_group
  • svy.screen: 筛查方法代码,来自survey.screen_group
  • svy.sex: 性别代码,来自survey.sex
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建整合了多个子项目,通过使用共同的数据文件作为输入和输出,实现了结核病负担估计和报告网页及PDF的生成。具体而言,数据集从世界卫生组织健康数据中心、全球基金、全球卫生观察站等多个权威来源获取数据,并利用R和Matlab等编程语言进行数据处理和模型构建。这些子项目通过共享数据文件,确保了数据的一致性和可追溯性。
特点
该数据集的显著特点在于其多源数据整合和高度专业化处理。数据涵盖了从经济指标到公共卫生统计的广泛领域,包括但不限于结核病通知、治疗结果、药物抗性估计等。此外,数据集还包含了动态模型和统计脚本,用于分析结核病的发病率和死亡率,以及评估治疗和预防措施的效果。这些特点使得该数据集在公共卫生研究和政策制定中具有重要价值。
使用方法
使用该数据集时,用户可以通过加载特定的R函数来访问和处理数据。例如,使用`load_gtb()`函数可以轻松加载最新的结核病通知数据。数据集的结构设计使得用户无需了解数据对象的具体存储位置,只需关注数据的使用和分析。此外,数据集还提供了详细的文档和代码示例,帮助用户理解和应用数据,从而支持结核病相关研究和公共卫生决策。
背景与挑战
背景概述
全球结核病报告2024数据集是由世界卫生组织(WHO)发布的,旨在提供关于全球结核病负担的最新估计和分析。该报告于2024年10月29日发布,由WHO的全球结核病项目团队开发。数据集汇集了多个子项目的数据,包括来自全球基金、全球卫生观察、国际卫生计量与评估研究所等多个国际组织的数据。这些数据不仅用于生成结核病负担的估计,还用于制作报告的网页和PDF版本。该数据集的核心研究问题是如何准确评估和报告全球结核病的流行趋势和影响因素,这对于制定有效的公共卫生政策和干预措施具有重要意义。
当前挑战
全球结核病报告2024数据集在构建过程中面临多个挑战。首先,数据来源的多样性和复杂性要求高度的数据整合和标准化处理。其次,结核病数据的准确性和时效性是一个持续的挑战,尤其是在数据收集和报告过程中可能存在的延迟和不完整性。此外,如何有效地将这些数据转化为有用的公共卫生信息,以便政策制定者和研究人员能够迅速采取行动,也是一个重要的挑战。最后,数据的安全性和隐私保护在处理全球公共卫生数据时尤为关键,确保数据在传输和存储过程中的安全性是不可忽视的问题。
常用场景
经典使用场景
在全球公共卫生领域,世界卫生组织的《全球结核病报告2024》数据集被广泛用于结核病负担的评估与预测。该数据集整合了来自多个国际组织和国家的数据,包括结核病的发病率、死亡率、治疗结果及药物耐药性等关键指标。通过这些数据,研究人员能够分析结核病的流行趋势,评估不同干预措施的效果,并为全球结核病防控策略的制定提供科学依据。
解决学术问题
该数据集解决了结核病流行病学研究中的多个关键问题,如结核病的发病机制、传播模式及影响因素的深入分析。通过整合全球范围内的结核病数据,研究者能够识别高风险地区和人群,优化资源分配,提高防控效率。此外,数据集还支持结核病药物耐药性的监测与预测,为新药研发和治疗策略的改进提供了重要参考。
衍生相关工作
基于《全球结核病报告2024》数据集,衍生出了多项重要的研究工作。例如,Pete Dodd的R脚本用于估计结核病发病率和死亡率的年龄与性别细分,Nim Arinaminpathy的Matlab代码用于动态建模结核病的发病率和死亡率。此外,Mathieu Bastard和Philippe Glaziou的R脚本用于生成结核病发病率和死亡率的估计,这些工作为结核病的精准防控提供了技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

ChemBL

ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。

www.ebi.ac.uk 收录

VQA

我们提出了自由形式和开放式视觉问答 (VQA) 的任务。给定图像和关于图像的自然语言问题,任务是提供准确的自然语言答案。反映许多现实世界的场景,例如帮助视障人士,问题和答案都是开放式的。视觉问题有选择地针对图像的不同区域,包括背景细节和底层上下文。因此,与生成通用图像说明的系统相比,在 VQA 上取得成功的系统通常需要对图像和复杂推理有更详细的理解。此外,VQA 适合自动评估,因为许多开放式答案仅包含几个单词或一组封闭的答案,可以以多项选择的形式提供。我们提供了一个数据集包含 100,000 的图像和问题并讨论它提供的信息。提供了许多 VQA 基线,并与人类表现进行了比较。

OpenDataLab 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

YOLO-dataset

该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。

github 收录

UAVDT

UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录