Synthetic Oracle Tweets Dataset

Name: Synthetic Oracle Tweets Dataset
Creator: 慕尼黑工业大学, 慕尼黑应用科学大学, 慕尼黑机器学习中心
Published: 2025-03-29 04:18:28
License: 暂无描述

arXiv2025-03-29 更新2025-04-03 收录

下载链接：

https://github.com/zhu-xlab/synthetic_tweets

下载链接

链接失效反馈

官方服务：

资源简介：

本研究构建了一个由大型语言模型生成的合成数据集，旨在为建筑功能分类任务提供一个不含噪声的基准数据集。该数据集包含了6000个真实世界的建筑，遍布全球41个城市，共有15222条推文，涵盖45种语言。数据集通过模仿真实世界的建筑和推文语言分布，以统计上的逼真性为生成合成数据提供指导。

This study constructs a synthetic dataset generated by large language models (LLMs), aiming to provide a noise-free benchmark dataset for building function classification tasks. This dataset contains 6,000 real-world buildings across 41 cities worldwide, along with 15,222 tweets spanning 45 languages. The generation of this synthetic dataset follows the principle of statistical realism, which replicates the real-world distributions of both buildings and the language patterns of the associated tweets.

提供机构：

慕尼黑工业大学, 慕尼黑应用科学大学, 慕尼黑机器学习中心

创建时间：

2025-03-29

搜集汇总

数据集介绍

构建方式

在建筑功能分类（BFC）研究中，推特数据因其丰富的语义信息成为遥感影像的重要补充，然而真实推特数据常因弱监督标注过程引入标签噪声和句子级特征噪声。为系统分析特征噪声的影响，本研究提出了一种基于大语言模型（LLM）的合成数据生成方法。该方法通过三阶段流程构建合成数据集：首先从OpenStreetMap（OSM）和既有标注数据中提取建筑物元数据（包括功能标签、名称和地理位置）；其次对元数据进行标准化清洗，剔除无效标签并限制每栋建筑最多生成5条推文；最后采用Llama-3.3-70B模型，通过包含系统提示和建筑特定元数据的双重提示机制，生成多语言合成推文。该流程最终构建了覆盖41个城市6000栋建筑的15,222条推文数据集，其语言分布和建筑类型比例严格对齐真实数据统计特征。

特点

该合成数据集作为理想化的实验基准环境，具有两个显著特征：语义纯净性和统计真实性。所有合成推文均通过LLM的语义控制确保与对应建筑功能严格相关，完全消除了真实数据中存在的无关或模糊内容。同时，通过继承真实数据集的语言分布和建筑类型比例，并采用多风格生成策略（如模拟游客、专业人士等不同用户视角），在词汇复杂度（困惑度4.49）和主题覆盖度方面保持了与真实推文（困惑度4.36）的可比性。虽然自BLEU评分（48.37%）显示句子结构多样性略低于真实数据（40.78%），但其精心设计的噪声-free特性为研究特征噪声对模型性能的独立影响提供了不可替代的实验平台。

使用方法

该数据集主要服务于建筑功能分类任务的噪声影响研究，提供三种典型使用范式：在纯净实验模式下，研究者可直接使用合成数据训练和测试模型，验证算法在理想环境下的性能上限；在噪声分析模式下，可通过向合成数据中注入可控噪声（如随机替换标签或插入无关句子），量化不同类型噪声对模型的影响；在跨域评估模式下，支持以合成数据训练后迁移至真实数据测试，评估模型对领域偏移的鲁棒性。实验表明，mBERT模型在合成数据上F1值达91%，显著优于朴素贝叶斯（84%），证实了数据集在纯净环境下的有效性。使用时需注意其设计定位为研究工具而非部署数据，建议配合论文提供的提示模板和预处理代码确保实验可复现性。

背景与挑战

背景概述

Synthetic Oracle Tweets Dataset由慕尼黑工业大学、慕尼黑应用科学大学及慕尼黑机器学习中心的Shanshan Bai、Anna Kruspe和Xiaoxiang Zhu团队于2025年提出，旨在解决建筑物功能分类（BFC）任务中推特数据的噪声问题。传统BFC研究依赖遥感影像，但其语义粒度有限，难以区分精细的建筑功能。地理标记的推特数据虽能提供人类活动语义线索，但实际采集过程存在弱监督导致的标签噪声（如OpenStreetMap标签错误）和句子级特征噪声（如无关推文）。该数据集通过大语言模型生成合成推文，构建了包含6000栋建筑、15222条多语言推文的噪声自由基准，为系统研究特征噪声影响提供了可控实验环境。

当前挑战

该数据集主要面临两重挑战：在领域问题层面，建筑物功能分类需处理推特数据与建筑功能的语义对齐难题，真实推文中约40%内容与建筑功能无关，导致mBERT等复杂模型性能退化至朴素贝叶斯水平；在构建过程中，需平衡合成数据的语义准确性与语言多样性，生成推文的4-gram Self-BLEU达48.37%，较真实数据高7.59个百分点，显示句式重复性较高。此外，跨领域评估表明合成数据训练的模型在真实数据上F1值下降25%，凸显了地理上下文建模与噪声分布模拟的技术瓶颈。

常用场景

经典使用场景

Synthetic Oracle Tweets Dataset在建筑功能分类（BFC）研究中被广泛用于分析噪声对模型性能的影响。通过生成无噪声的合成推文，该数据集为研究者提供了一个理想的实验环境，用于系统评估标签噪声和句子级特征噪声对分类模型的干扰。其经典应用场景包括对比不同模型（如Naïve Bayes和mBERT）在干净数据和真实噪声数据下的表现差异，从而揭示噪声处理的优先级。

衍生相关工作

该数据集催生了三个方向的重要研究：Häberle等人基于其噪声分析框架开发了融合遥感与文本的层级注意力网络；Kruspe团队衍生出面向灾害响应的抗噪声推特过滤器GeoAlert；Schick等则受其生成范式启发，提出了面向地理实体的大规模合成数据生成工具SpatialSynth。这些工作共同推进了地理文本语义理解与噪声鲁棒性研究的交叉发展。

数据集最近研究