five

H4M Dataset

收藏
github2024-09-11 更新2024-09-12 收录
下载链接:
https://github.com/IndigoPurple/H4M
下载链接
链接失效反馈
官方服务:
资源简介:
H4M数据集是一个用于北京社会经济分析的异构、多源、多模态、多视图和多分布的数据集。

The H4M dataset is a heterogeneous, multi-source, multi-modal, multi-view, and multi-distribution dataset for Beijing socio-economic analysis.
创建时间:
2024-09-11
原始信息汇总

H4M 数据集

概述

H4M 数据集是一个异构、多源、多模态、多视角和多分布的北京社会经济分析数据集。

作者

  • Yaping Zhao
  • Shuhui Shi
  • Ramgopal Ravi
  • Zhongrui Wang
  • Edmund Y. Lam
  • Jichang Zhao

论文链接

数据集下载

数据集结构

  • H4M/
    • data/
      • dsaa_dataset_order_rename.csv
      • traffic.txt
      • points_of_interest.json
      • geo_tweets/
        • 20130914.txt
        • ...

使用方法

  1. 安装依赖:

    conda env create -f environment.yml conda activate h4m

  2. 下载 Original H4M Dataset 并放置在项目目录中。

  3. 运行 python h4m.py 以复现论文中的结果和图表。

相关工作

标题 论文 代码
House Price Prediction: A Multi-Source Data Fusion Perspective Paper Code
A Large-Scale Spatio-Temporal Multimodal Fusion Framework for Traffic Prediction Paper -
Large-Scale Traffic Congestion Prediction based on Multimodal Fusion and Representation Mapping Paper Code
PATE: Property, Amenities, Traffic and Emotions Coming Together for Real Estate Price Prediction Paper Code
H4M: Heterogeneous, Multi-source, Multi-modal, Multi-view and Multi-distributional Dataset for Socioeconomic Analytics in Case of Beijing Paper Code

引用

@ARTICLE{zhao2024, author={Zhao, Yaping and Zhao, Jichang and Lam, Edmund Y.}, journal={Big Data Mining and Analytics}, title={House Price Prediction: A Multi-Source Data Fusion Perspective}, year={2024}, keywords={price prediction;real estate;data mining;machine learning}, doi={10.26599/BDMA.2024.9020019} }

@inproceedings{zhao2022h4m, title={{H4M}: Heterogeneous, Multi-source, Multi-modal, Multi-view and Multi-distributional Dataset for Socioeconomic Analytics in Case of Beijing}, author={Zhao, Yaping and Shi, Shuhui and Ravi, Ramgopal and Wang, Zhongrui and Lam, Edmund Y and Zhao, Jichang}, booktitle={IEEE International Conference on Data Science and Advanced Analytics}, year={2022}, organization={IEEE} }

@inproceedings{zhao2022pate, title={{PATE}: Property, Amenities, Traffic and Emotions Coming Together for Real Estate Price Prediction}, author={Zhao, Yaping and Ravi, Ramgopal and Shi, Shuhui and Wang, Zhongrui and Lam, Edmund Y and Zhao, Jichang}, booktitle={IEEE International Conference on Data Science and Advanced Analytics}, year={2022}, organization={IEEE} }

搜集汇总
数据集介绍
main_image_url
构建方式
在构建H4M数据集的过程中,研究团队精心整合了来自多个源头的异质性数据,涵盖了多模态、多视角和多分布的特征。这些数据包括但不限于社会经济指标、交通流量、兴趣点分布以及地理推文等,旨在为北京市的社会经济分析提供全面而深入的数据支持。通过多源数据的融合与重构,H4M数据集不仅丰富了数据的维度,还增强了其在复杂社会经济问题研究中的应用潜力。
特点
H4M数据集的显著特点在于其异质性、多源性、多模态性、多视角性和多分布性。这些特性使得该数据集能够捕捉到社会经济现象的复杂性和多样性,从而为研究者提供了丰富的分析视角。此外,数据集的构建还考虑到了数据的时空分布特性,确保了数据在时间序列和地理空间上的连续性和一致性,进一步提升了其在社会经济分析中的实用价值。
使用方法
使用H4M数据集时,用户首先需访问其官方网站下载原始数据,并按照指定的目录结构进行组织。随后,用户可以通过运行提供的Python脚本,即'h4m.py',来重现研究论文中的结果和图表。此外,数据集还支持进一步的研究和分析,用户可以根据自身需求进行数据的二次处理和模型构建。通过这些步骤,研究者可以充分利用H4M数据集的丰富性和多样性,进行深入的社会经济分析。
背景与挑战
背景概述
H4M数据集,全称为Heterogeneous, Multi-source, Multi-modal, Multi-view and Multi-distributional Dataset for Socioeconomic Analytics in Case of Beijing,由Yaping Zhao、Shuhui Shi、Ramgopal Ravi、Zhongrui Wang、Edmund Y. Lam和Jichang Zhao等研究人员于2022年创建。该数据集旨在通过整合多源、多模态、多视角和多分布的数据,为北京市的社会经济分析提供全面的数据支持。其核心研究问题涉及如何有效融合异质数据以提升社会经济分析的准确性和全面性,对城市规划、政策制定和市场分析等领域具有重要影响。
当前挑战
H4M数据集在构建过程中面临多重挑战。首先,数据的多源性和异质性要求开发高效的融合算法,以确保数据的一致性和可用性。其次,多模态数据的处理需要先进的机器学习技术,以提取和整合不同数据类型的特征。此外,数据的多视角和多分布特性增加了数据分析的复杂性,需要创新的方法来处理和解释这些数据。最后,确保数据隐私和安全也是一大挑战,特别是在涉及敏感社会经济信息时。
常用场景
经典使用场景
在社会经济分析领域,H4M数据集因其多源、多模态、多视角和多分布的特性,成为研究北京地区社会经济现象的经典工具。该数据集整合了交通、地理信息、兴趣点及社交媒体等多维度数据,为研究者提供了丰富的分析素材。通过融合这些异构数据,研究者能够深入探讨城市发展、交通流量预测及房地产价格变动等复杂问题,从而为政策制定和城市规划提供科学依据。
衍生相关工作
基于H4M数据集,一系列相关研究工作得以展开,涵盖了房地产价格预测、交通流量预测及城市动态分析等多个方向。例如,PATE模型通过融合房地产属性、交通状况和情感数据,实现了更精准的房价预测。此外,基于多模态数据融合的交通预测框架,也为城市交通管理提供了新的解决方案。这些衍生工作不仅丰富了数据集的应用场景,也推动了相关领域的技术进步。
数据集最近研究
最新研究方向
在社会经济分析领域,H4M数据集因其异质性、多源、多模态、多视角和多分布特性而备受关注。最新研究方向主要集中在利用该数据集进行多源数据融合,以提升城市社会经济指标的预测精度。例如,通过融合交通流量、地理推文和兴趣点数据,研究者们正在开发更为精准的房价预测模型。此外,该数据集还被用于构建大规模时空多模态融合框架,以实现交通预测的精细化。这些研究不仅推动了数据科学和高级分析技术的发展,也为城市规划和政策制定提供了有力的数据支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作