World Mortality Dataset|全球死亡率数据集|公共卫生数据集
收藏World Mortality Dataset 概述
数据集描述
- 名称: World Mortality Dataset
- 时间范围: 2015–2024
- 覆盖地区: 127个国家及地区
- 数据类型: 国家级别的所有原因死亡数据
- 更新频率: 数据持续更新
数据内容
- 死亡类型: 所有原因死亡数据
- 数据粒度: 每周、每月或季度数据
- 数据范围: 仅提供国家级别数据,不细分年龄或性别
数据来源
- 主要来源:
- Human Mortality Database, Short-Term Mortality Fluctuations (STMF)
- Eurostat
- 其他来源: 各国统计局或相关部门的直接数据请求
数据处理
- 数据集成: 将STMF数据与Eurostat数据进行协调,优先使用STMF数据
- 数据质量: 最新数据点为初步数据,可能会有较大修订
- 数据排除: 排除明显不完整的最新周数据
数据使用
- 引用方式: Karlinsky & Kobak 2021, Tracking excess mortality across countries during the COVID-19 pandemic with the World Mortality Dataset, eLife
- 相关分析: 使用此数据集进行的超额死亡分析可见于 https://github.com/dkobak/excess-mortality
数据局限
- 未来预测: 从2024年起将不再提供超额死亡估计,因为基于2015–2019趋势的线性外推法随时间推移越来越不可靠
- 数据要求: 至少需要完整2019年的数据,且数据必须至少更新至2020年6月
数据贡献
- 贡献欢迎: 欢迎任何形式的贡献
以上概述了World Mortality Dataset的关键信息,包括数据集的基本描述、内容、来源、处理方式、使用方法及局限性。

hoskinson-center/proof-pile
`proof-pile`是一个13GB的数学文本预训练数据集,包含83亿个标记(使用`gpt-neox`分词器)。该数据集由多种非正式和正式数学文本来源组成,包括ArXiv.math(10GB)、开源数学教科书(50MB)、形式数学库(500MB)、Math Overflow和Math Stack Exchange(2.5GB)、Wiki风格来源(50MB)以及MATH数据集(6MB)。数据集构建过程可复现,并提供了详细的预处理步骤和过滤条件。
hugging_face 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
Maddison Project Database
The Maddison Project Database was started in March 2010. The project builds on the original dataset created by economist Agnus Maddison to revise or adjust the historical economic data based on new information. Data for population, GDP, and per capita GDP are presented by countries, small country groups, regions, and the world, dating back to Roman times. In the January 2013 update many of the pre-1820 and all of the pre-1600 numbers for GDP per capita were modified. GDP per capita data for 2009 and 2010 were also added.
Global Health Data Exchange () 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
NIST Thermochemical Database
NIST Thermochemical Database(NIST热化学数据库)是一个包含大量热化学数据的数据集,涵盖了各种化学物质的热力学性质,如焓、熵、自由能等。该数据库由美国国家标准与技术研究院(NIST)维护,旨在为科学研究和工业应用提供准确的热化学数据。
webbook.nist.gov 收录