Titanic Dataset|生存预测数据集|乘客特征分析数据集
收藏Titanic Dataset 概述
数据集组成
- 训练集 (train.csv):用于构建机器学习模型,包含每个乘客的生存结果(“ground truth”)。
- 测试集 (test.csv):用于评估模型在未见数据上的表现,不包含每个乘客的生存结果,需预测。
- 性别提交示例 (gender_submission.csv):假设所有和仅女性乘客生存的预测示例。
数据字典
变量 | 定义 | 说明 |
---|---|---|
survival | 生存情况 | 0 = 否, 1 = 是 |
pclass | 票等级 | 1 = 头等, 2 = 二等, 3 = 三等 |
sex | 性别 | |
Age | 年龄 | 若小于1则为小数,估计年龄为xx.5 |
sibsp | 兄弟姐妹/配偶数量 | 兄弟姐妹包括兄弟、姐妹、继兄弟、继姐妹;配偶包括丈夫、妻子 |
parch | 父母/子女数量 | 父母包括母亲、父亲;子女包括女儿、儿子、继女、继子;部分儿童仅与保姆同行 |
ticket | 票号 | |
fare | 乘客票价 | |
cabin | 客舱号 | |
embarked | 登船港口 | C = Cherbourg, Q = Queenstown, S = Southampton |
变量注释
- pclass:社会经济地位的代理,1st = 上层,2nd = 中层,3rd = 下层。
- Age:年龄若小于1则为小数,估计年龄格式为xx.5。
- sibsp:兄弟姐妹包括兄弟、姐妹、继兄弟、继姐妹;配偶包括丈夫、妻子。
- parch:父母包括母亲、父亲;子女包括女儿、儿子、继女、继子;部分儿童仅与保姆同行。

中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
Fruits-360
一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。
github 收录