CityBench-CityData|城市数据数据集|数据分析数据集

huggingface2024-12-22 更新2024-12-23 收录

城市数据

数据分析

下载链接：

https://huggingface.co/datasets/Tianhui-Liu/CityBench-CityData

下载链接

链接失效反馈

资源简介：

这是一个包含13个现有城市的CityData数据集，用于CityBench研究。数据集包括下载和解压zip文件，并将提取的`citydata`文件夹放置在`CityBench`目录下。

创建时间：

2024-12-16

原始信息汇总

CityData 数据集

概述

CityData 数据集包含13个现有城市的数据，用于 CityBench 研究。

使用步骤

下载 zip 文件并解压缩。
将解压后的 citydata 文件夹放置在 CityBench 目录下。

引用

如果该数据集对您的研究有帮助，请引用相关论文：

@article{Feng2024CityBenchET, title={CityBench: Evaluating the Capabilities of Large Language Model as World Model}, author={Jie Feng, Jun Zhang, Tianhui Liu, Xin Zhang, Tianjian Ouyang, Junbo Yan, Yuwei Du, Siqi Guo, Yong Li}, journal={ArXiv}, year={2024}, volume={abs/2406.13945}, url={https://api.semanticscholar.org/CorpusID:270620697} }

AI搜集汇总

数据集介绍

构建方式

CityBench-CityData数据集由清华大学fib实验室构建，汇集了全球13个城市的详细数据，旨在支持CityBench研究项目。该数据集通过系统化的城市数据采集与整合，确保了数据的全面性与准确性，为城市模型的评估提供了坚实的基础。

特点

CityBench-CityData数据集的显著特点在于其涵盖了多个城市的多样化数据，包括但不限于城市规划、交通流量、环境指标等。这些数据经过精心筛选与处理，具有高度的代表性和实用性，特别适用于大规模语言模型在城市建模中的应用评估。

使用方法

使用CityBench-CityData数据集时，用户需先下载并解压数据集文件，然后将解压后的`citydata`文件夹放置在CityBench项目的指定目录下。通过这种方式，用户可以无缝集成数据集，并利用CityBench框架进行深入的城市模型评估与分析。

背景与挑战

背景概述

CityBench-CityData数据集是由清华大学fib实验室的研究团队创建，旨在评估大型语言模型作为世界模型的能力。该数据集包含了13个现有城市的详细数据，这些数据被用于CityBench研究项目中。CityBench项目通过模拟城市环境，探索如何利用大型语言模型来理解和预测城市动态。该研究的核心问题在于验证这些模型在复杂城市环境中的表现，以及它们如何辅助城市规划和管理。CityBench-CityData的发布不仅为城市科学研究提供了新的数据资源，也为智能城市的发展提供了理论和技术支持。

当前挑战

CityBench-CityData数据集在构建过程中面临了多重挑战。首先，收集和整合13个不同城市的详细数据是一项复杂且耗时的任务，涉及数据的标准化和一致性问题。其次，如何确保这些数据在模拟城市环境中的有效性和准确性，是一个技术难题。此外，评估大型语言模型在城市环境中的应用效果，需要设计新的评估指标和方法，以捕捉模型在复杂城市动态中的表现。这些挑战不仅限于数据集的构建，还包括如何将这些数据有效地应用于实际的城市规划和管理中。

常用场景

经典使用场景

CityBench-CityData数据集在城市建模与智能城市研究领域中扮演着关键角色。该数据集包含了13个现有城市的详细数据，为研究人员提供了一个全面的基准，用于评估和优化城市系统的性能。通过将这些城市数据整合到CityBench框架中，研究者能够模拟和分析不同城市环境下的复杂动态行为，从而为智能城市的规划与管理提供科学依据。

衍生相关工作

CityBench-CityData数据集的发布激发了众多相关研究工作。例如，基于该数据集的研究者们开发了多种城市模型和仿真工具，用于评估不同城市规划方案的效果。同时，该数据集还促进了跨学科的合作，如与地理信息系统（GIS）和人工智能领域的结合，推动了智能城市技术的创新。此外，该数据集的开放性还鼓励了全球范围内的研究者共同参与，形成了丰富的学术交流和合作网络。

数据集最近研究

最新研究方向

在智慧城市领域，CityBench-CityData数据集的最新研究方向聚焦于利用大规模语言模型（LLMs）作为世界模型，以评估其在城市数据分析中的能力。该数据集包含了13个现有城市的详细数据，为研究者提供了一个全面的基准，用于测试和验证LLMs在城市规划、交通管理、环境监测等方面的应用潜力。通过CityBench框架，研究者能够系统地评估LLMs在处理复杂城市数据时的表现，从而推动智慧城市技术的创新与发展。这一研究方向不仅深化了对LLMs在城市数据处理中的理解，也为未来智慧城市的构建提供了重要的理论与实践基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LEGO数据集

该数据集包含了关于LEGO公司的历史、产品提供以及特定LEGO套装的信息，用于分析LEGO套装的规模、发布年份、主题分布以及套装复杂性的变化。

github 收录

豆瓣数据集

该数据集通过爬虫技术从豆瓣网站获取了48223条电影数据，并与movielens ml-latest数据集通过共同的imdb字段进行交集处理，最终得到15752条共同数据。数据存储格式为JSON，支持导入到MongoDB或其他数据库使用。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性，12位男性)，以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常，强烈) 下产生的，另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位，48kHz .wav)，音频-视频 (720p H.264，AAC 48kHz，.mp4) 和仅视频 (无声音)。注意，Actor_18没有歌曲文件。

OpenDataLab 收录

CityBench-CityData|城市数据数据集|数据分析数据集

CityData 数据集

概述

使用步骤

相关资源

引用