Global tuberculosis report 2024|结核病数据集|公共卫生数据集
收藏WHO全球结核病报告2024
数据集概述
该数据集用于开发世界卫生组织的《2024年全球结核病报告》。报告于2024年10月29日发布,地址为https://www.who.int/teams/global-tuberculosis-programme/tb-reports/global-tuberculosis-report-2024/。
数据集结构
数据集包含多个子项目,用于生成结核病负担估计并生成报告的网页和PDF。子项目通过使用共同的数据文件进行链接,这些文件既作为输入,也作为其他子项目使用的生成输出。
文件夹结构
-
data: 报告使用的数据集
- datahub: 从WHO健康数据中心下载的选定指标,包括UHC服务指数
- gf: 全球基金关于捐赠者承诺的数据
- gho: 从WHO全球健康观察站下载的选定指标,包括BCG疫苗接种覆盖率和灾难性健康支出
- gtb: 从WHO全球结核病数据库提取的R二进制数据集
- other: 国家列表、人口估计、参考列表、调查结果和外部指标
- snapshot_yyyy-mm-dd: 国家报告数据的快照
- ihme: 来自健康指标与评估研究所的生命统计数据
- imf: 来自国际货币基金组织的经济数据
- kff: 来自凯撒家庭基金会的经济数据
- mortality: 来自WHO生命统计数据库的生命统计数据
- nhe: 来自WHO全球卫生支出数据库的国家卫生账户数据
- oecd: 来自经济合作与发展组织的经济数据
- pcs: 已完成患者成本调查的总结结果
- ps: 在WHO全球结核病数据库中不可用的患病率调查的总结结果
- unaids: 来自UNAIDS的HIV估计
- unore: 来自联合国财政部的联合国运营汇率
- wb: 来自世界银行的经济数据
-
disaggregation: Pete Dodd的R脚本,用于按年龄组和性别估计发病率和死亡率
-
doc: 用于国家向WHO报告数据的基于网页的数据收集表单的PDF版本,显示数据库变量名称
-
drtb: Pete Dodd的R和Stan脚本,用于估计耐药结核病负担
-
dynamic: Nim Arinaminpathy的Matlab代码,用于动态建模2020-2023年期间选定国家的结核病发病率和死亡率
-
finance: Takuya Yamanaka的R代码,用于分析结核病融资数据
-
import: R脚本,用于从外部来源和WHO全球结核病数据库下载数据到相关的
~/data/
文件夹,以及加载保存的GTB数据文件到内存 -
inc_mort: Mathieu Bastard和Philippe Glaziou的R脚本,用于生成结核病发病率和死亡率的估计
-
lives_saved: Takuya Yamanaka和Philippe Glaziou的R脚本,用于生成自2005年以来通过结核病治疗和ART避免的死亡人数的估计
-
report: Mathieu Bastard、Irwin Law、Hazim Timimi和Takuya Yamanaka的R Markdown脚本,用于生成2024年WHO全球结核病报告网页和报告PDF的表格、静态图表、交互式Kendo UI图表和文本
全球结核病数据库数据集
以下部分显示了往年选择的数据对象名称。如果使用load_gtb()
函数,则无需知道数据对象是否属于快照或其他部分,代码也不必使用相同的数据对象名称。
快照数据
- agg: TB/HIV指标,用于从
view_TME_master_TBHIV_for_aggregates
计算聚合 - covid: COVID对服务和UNHLM承诺响应的影响,来自
view_TME_master_covid_unhlm
- drfq: 用于估计RR-TB患者中氟喹诺酮耐药性的DRS记录,来自
view_DRS_for_estimation_sldst
- drhnew: 用于估计新TB患者中HR-TB的DRS记录,来自
view_DRS_for_estimation_new_INH
- drhret: 用于估计先前治疗过的TB患者中HR-TB的DRS记录,来自
view_DRS_for_estimation_ret_INH
- drnew: 用于估计新TB患者中RR-TB的DRS记录,来自
view_DRS_for_estimation_new
- drret: 用于估计先前治疗过的TB患者中RR-TB的DRS记录,来自
view_DRS_for_estimation_ret
- drroutine: 常规药物耐药性监测记录,来自
view_TME_master_dr_surveillance
- finance: TB财务和卫生服务利用,来自
view_TME_master_budget_expenditure
- ltbi: 儿童中TPT覆盖率的估计(从报告数据中得出的数字),来自
view_TME_estimates_ltbi
- monthly: 临时的月度或季度通知,来自
dcf.latest_provisional_c_newinc
- sty: 服务、PPM、社区参与、M&E系统,来自
view_TME_master_strategy
- tb: TB通知,来自
view_TME_master_notifications
- tpt: TB预防性治疗,来自
view_TME_master_contacts_tpt
- tx: 治疗结果,来自
view_TME_master_outcomes
- vrgtb: 国家报告的VR数据,来自
dcf.latest_vr
其他数据
解释性数据
- dic: 数据字典,来自
view_TME_data_dictionary
- codes: 分类变量使用的代码的含义,来自
view_TME_data_codes
参考数据:国家、国家组、人口和SDG指标
- cty: 4种语言的国家和地区名称、代码、WHO区域和状态,来自
view_TME_master_report_country
- datacoll: 每个国家-数据收集年组合的数据收集表单选项设置,来自
view_TME_master_data_collection
- grptypes: 按主题分组国家的方式,来自
view_country_group_types
- grp: 每个分组主题内的国家组(例如,世界银行收入分类中的高、中上、中下和低4个收入组),来自
view_country_groups
- grpmbr: 属于每个国家组的成员国家,来自
view_country_group_membership
- pop: 联合国人口司的人口估计,来自
view_TME_estimates_population
- sdg: 与TB发病率相关的SDG指标数据和代码,来自
external_indicators.view_indicator_data
- sdgdef: SDG指标的全名及其来源,来自
"external_indicators.view_indicator_definition
调查和调查结果
- svy.cc: 灾难性成本调查的结果,来自
survey.view_catastrophic_costs_survey
- svy.prev: 来自患病率调查的患病率估计,来自
survey.view_prevalence_survey_estimates
- svy.prevcases: 患病率调查中发现的TB病例数,来自
survey.view_prevalence_survey_cases
- svy.prevchar: 患病率调查的特征,来自
survey.view_prevalence_survey
调查记录中使用的代码
- svy.agegr: 年龄组代码,来自
survey.age_group
- svy.areatype: 地区类型代码,来自
survey.area_type
- svy.casetype: 病例类型代码,来自
survey.case_type
- svy.patientgr: 患者组代码,来自
survey.patient_group
- svy.screen: 筛查方法代码,来自
survey.screen_group
- svy.sex: 性别代码,来自
survey.sex

ChemBL
ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。
www.ebi.ac.uk 收录
VQA
我们提出了自由形式和开放式视觉问答 (VQA) 的任务。给定图像和关于图像的自然语言问题,任务是提供准确的自然语言答案。反映许多现实世界的场景,例如帮助视障人士,问题和答案都是开放式的。视觉问题有选择地针对图像的不同区域,包括背景细节和底层上下文。因此,与生成通用图像说明的系统相比,在 VQA 上取得成功的系统通常需要对图像和复杂推理有更详细的理解。此外,VQA 适合自动评估,因为许多开放式答案仅包含几个单词或一组封闭的答案,可以以多项选择的形式提供。我们提供了一个数据集包含 100,000 的图像和问题并讨论它提供的信息。提供了许多 VQA 基线,并与人类表现进行了比较。
OpenDataLab 收录
MultiTalk
MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。
arXiv 收录
YOLO-dataset
该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。
github 收录
UAVDT
UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。
arXiv 收录