train_composite_and_tabular_dataset
收藏Hugging Face2026-02-11 更新2026-02-12 收录
下载链接:
https://huggingface.co/datasets/blesspearl/train_composite_and_tabular_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含1024个样本,每个样本包含25个特征字段,涵盖了地理位置名称、季度标签、国家、年份、经济指标(如经过通货紧缩调整的GDP)、美国消费者物价指数、国家发展状态、地理封锁状态、区域经济分类、交通基础设施可达性(如机场、港口、高速公路、铁路)、到首都的直线距离、自然灾害风险(如地震、洪水、热带气旋、龙卷风)、柯本气候带、以及卫星图像文件名和路径(Sentinel-2和VIIRS)。此外,还包括每平方米建筑成本(美元)。数据集总大小为18.4GB,适用于经济地理、环境风险分析、基础设施规划等研究任务。
创建时间:
2026-02-01
原始信息汇总
数据集概述
基本信息
- 数据集名称: train_composite_and_tabular_dataset
- 发布者: blesspearl
- 托管平台: Hugging Face Datasets
- 数据集地址: https://huggingface.co/datasets/blesspearl/train_composite_and_tabular_dataset
数据集结构与内容
- 数据格式: 表格数据与图像数据的复合数据集
- 数据总量: 1024 个样本
- 数据集大小: 约 18.41 GB
- 下载大小: 约 18.40 GB
- 数据分割: 仅包含一个“train”分割
数据特征(字段说明)
数据集包含以下字段:
标识与基本信息
data_id: 数据标识符(字符串)geolocation_name: 地理位置名称(字符串)quarter_label: 季度标签(字符串)country: 国家(字符串)year: 年份(整数)
经济与成本指标
deflated_gdp_usd: 经平减的GDP(美元,浮点数)us_cpi: 美国消费者价格指数(浮点数)construction_cost_per_m2_usd: 每平方米建筑成本(美元,浮点数)
国家与地区属性
developed_country: 是否为发达国家(字符串)landlocked: 是否为内陆国家(字符串)region_economic_classification: 区域经济分类(字符串)
交通可达性
access_to_airport: 机场可达性(字符串)access_to_port: 港口可达性(字符串)access_to_highway: 高速公路可达性(字符串)access_to_railway: 铁路可达性(字符串)straight_distance_to_capital_km: 到首都的直线距离(公里,浮点数)
环境与灾害风险
seismic_hazard_zone: 地震灾害带(字符串)flood_risk_class: 洪水风险等级(字符串)tropical_cyclone_wind_risk: 热带气旋风风险(字符串)tornadoes_wind_risk: 龙卷风风险(字符串)koppen_climate_zone: 柯本气候带(字符串)
遥感图像数据
sentinel2_tiff_file_name: Sentinel-2卫星TIFF图像文件名(字符串)viirs_tiff_file_name: VIIRS传感器TIFF图像文件名(字符串)sentinel2_path: Sentinel-2图像路径(图像类型)viirs_path: VIIRS图像路径(图像类型)
数据获取
- 配置文件: 默认配置(default)
- 数据文件路径模式:
data/train-*
搜集汇总
数据集介绍

构建方式
在宏观经济与地理空间分析领域,train_composite_and_tabular_dataset的构建体现了多源异构数据的深度融合。该数据集通过整合卫星遥感影像与结构化表格数据,系统性地采集了全球多个地理区域的经济指标、基础设施条件及自然环境风险信息。其构建过程涉及对Sentinel-2与VIIRS卫星影像的标准化处理,并与经过严格清洗的宏观经济统计数据、地理属性标签进行时空对齐,确保了数据在区域与时间维度上的一致性。这种跨模态的数据集成方法,为研究复杂社会经济现象提供了坚实的多维度事实基础。
特点
本数据集的核心特征在于其独特的复合数据结构,巧妙地将高分辨率遥感图像与丰富的表格属性相结合。表格部分涵盖了从GDP、CPI到交通可达性、气候风险分类等数十个精心设计的特征变量,而图像部分则提供了同一区域的卫星观测视图,形成了视觉与数值特征的互补印证。这种结构不仅支持传统的表格数据分析,更开辟了结合计算机视觉技术进行跨模态建模的新路径,为探索经济地理规律提供了前所未有的多维分析视角。
使用方法
该数据集主要服务于机器学习与数据科学领域,尤其适用于开发与评估多模态预测模型。研究人员可将其应用于经济指标预测、区域发展评估或自然灾害风险评估等任务。典型的使用流程包括加载表格特征与对应的卫星图像路径,利用深度学习框架构建能够同时处理结构化数据与图像输入的融合网络。数据已预先划分为训练集,便于直接用于模型训练,其统一的格式设计也简化了数据预处理与特征工程环节,加速了研究原型的迭代与验证过程。
背景与挑战
背景概述
train_composite_and_tabular_dataset 是一个融合多模态信息的数据集,旨在支持地理经济学与灾害风险评估领域的交叉研究。该数据集由相关研究机构于近年构建,整合了卫星遥感影像(如 Sentinel-2 和 VIIRS)与结构化表格数据,涵盖地理位置、经济指标、自然灾害风险及基础设施等多维度特征。其核心研究问题聚焦于如何通过结合视觉与统计信息,提升对区域经济发展模式与灾害脆弱性的预测精度,为政策制定与风险管理提供数据驱动的见解,对推动空间数据科学和可持续规划领域具有显著影响力。
当前挑战
该数据集致力于解决地理经济学中多模态数据融合的复杂挑战,即如何有效整合高维卫星影像与异质表格数据,以准确建模经济指标与灾害风险之间的非线性关系。在构建过程中,面临数据对齐的难题,例如协调不同来源的时空分辨率,确保遥感数据与表格记录在时间和空间上的一致性;同时,处理缺失值与噪声、统一多源数据的格式与尺度,以及维护大规模地理数据的存储与访问效率,均是实现数据集可靠性与实用性的关键障碍。
常用场景
经典使用场景
在遥感与地理信息科学领域,该数据集通过整合卫星影像与结构化社会经济数据,为多模态机器学习模型提供了理想的训练平台。研究人员能够利用Sentinel-2和VIIRS影像数据,结合地理、经济及基础设施特征,构建预测区域经济发展或环境风险的复杂模型。这种复合数据架构特别适用于探索空间异质性对宏观社会经济指标的影响,为地理空间智能分析开辟了新路径。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在多模态神经网络架构的设计上,例如融合卷积神经网络与梯度提升树的混合模型,用于预测区域经济韧性。后续研究扩展了其在气候变化适应性评估中的应用,开发了基于注意力机制的空间时序预测框架。这些成果显著提升了地理空间数据的表征学习能力,并为《自然·通讯》等期刊提供了多篇跨学科研究的实证基础。
数据集最近研究
最新研究方向
在区域经济与灾害风险评估领域,融合多模态数据正成为前沿趋势。train_composite_and_tabular_dataset整合了卫星遥感影像与结构化社会经济指标,为地理空间智能研究提供了丰富资源。当前研究聚焦于利用深度学习模型解析Sentinel-2和VIIRS影像特征,结合GDP、交通可达性等表格数据,构建区域经济韧性预测框架。热点方向包括开发跨模态注意力机制以捕捉自然灾害风险与经济活动的复杂关联,推动气候变化适应政策的量化分析。这类数据集显著提升了多源异构数据融合的建模能力,为可持续发展目标下的区域规划提供了数据驱动的决策支持。
以上内容由遇见数据集搜集并总结生成



