PEMS_SF UCI Machine learning dataset|交通管理数据集|机器学习数据集
收藏PEMSF_Project 数据集概述
数据集文件
- PEMS_train: 训练数据文件,由于文件过大,无法上传至GitLab,可通过以下链接下载:PEMS_train
- PEMS_trainlabels.txt: 训练数据标签文件
- PEMS_test.txt: 测试数据文件
- PEMS_testlabels.txt: 测试数据标签文件
- First_Day_Guess_label.txt: 第一天的猜测标签文件
- First_Day_Guess_test.txt: 第一天的猜测测试文件
- Second_Day_Guess_label.txt: 第二天的猜测标签文件
- Second_Day_Guess_test.txt: 第二天的猜测测试文件
- Third_Day_Guess_label.txt: 第三天的猜测标签文件
- Third_Day_Guess_test.txt: 第三天的猜测测试文件
- stations_list.txt: 包含所有传感器ID的文本文件,用于数据提取
代码文件
- project_group2.ipynb: 用于训练模型的Python文件
- Group2_Project_Prototype.ipynb: 项目原型的Python文件
- Project_Data_Extractions.ipynb: 用于从https://pems.dot.ca.gov提取占用率数据的Python文件
使用说明
-
运行project_group2.ipynb:
- 下载并移动
PEMS_train
到与project_group2.ipynb
相同的目录。 - 下载
PEMS_trainlabels.txt
、PEMS_test.txt
和PEMS_testlabels.txt
,并确保这些文件与project_group2.ipynb
在同一目录。
- 下载并移动
-
运行Group2_Project_Prototype.ipynb:
- 下载
Group2_Project_Prototype.ipynb
、PEMS_test.txt
、PEMS_trainlabels.txt
、First_Day_Guess_label.txt
、First_Day_Guess_test.txt
、Second_Day_Guess_label.txt
、Second_Day_Guess_test.txt
、Third_Day_Guess_label.txt
和Third_Day_Guess_test.txt
,并确保这些文件与Group2_Project_Prototype.ipynb
在同一目录。
- 下载
-
运行Project_Data_Extractions.ipynb:
- 在https://pems.dot.ca.gov创建账户,并在
Project_Data_Extractions.ipynb
的第110和111行输入用户名和密码。 - 下载
stations_list.txt
,并确保该文件与Project_Data_Extractions.ipynb
在同一目录。 - 运行
Project_Data_Extractions.ipynb
,将收集并预处理占用率传感器数据到self_test.txt
文件中。
- 在https://pems.dot.ca.gov创建账户,并在
未来工作
Project_Data_Extractions.ipynb
仍在开发中,旨在自动化整个数据收集和组织过程,以便模型能够读取。

中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
World Flights
该数据集包含使用OpenSky Network实时API收集的两小时飞行数据。飞行颜色基于出发国家,记录了18000次飞行,由于缺乏卫星覆盖,海洋上的航线不完整。每条航线还加入了来自airlinecodes.co.uk的航空公司信息。
github 收录
中国行政区划shp数据
中国行政区划数据是重要的基础地理信息数据,目前不同来源的全国行政区划数据非常多,但能够开放获取的高质量行政区域数据少之又少。基于此,锐多宝的地理空间制作一套2013-2023年可开放获取的高质量行政区划数据。该套数据以2022年国家基础地理信息数据中的县区划数据作为矢量基础,辅以高德行政区划数据、天地图行政区划数据,参考历年来民政部公布的行政区划为属性基础,具有时间跨度长、属性丰富、国界准确、更新持续等特性。 中国行政区划数据统计截止时间是2023年2月12日,包含省、市、县、国界、九段线等矢量shp数据。该数据基于2020年行政区划底图,按时间顺序依次制作了2013-2023年初的行政区划数据。截止2023年1月1日,我国共有34个省级单位,分别是4个直辖市、23个省、5个自治区和2个特别行政区。截止2023年1月1日,我国共有333个地级单位,分别是293个地级市、7个地区、30个自治州和3个盟,其中38个矢量要素未纳入统计(比如直辖市北京等、特别行政区澳门等、省直辖县定安县等)。截止2023年1月1日,我国共有2843个县级单位,分别是1301个县、394个县级市、977个市辖区、117个自治县、49个旗、3个自治旗、1个特区和1个林区,其中9个矢量要素未纳入县级类别统计范畴(比如特别行政区香港、无县级单位的地级市中山市东莞市等)。
CnOpenData 收录