合成数据集

Name: 合成数据集
Creator: 都灵理工大学电子与通信工程系
Published: 2023-06-27 22:46:09
License: 暂无描述

arXiv2023-06-27 更新2024-06-21 收录

下载链接：

https://naspic4ser.polito.it/files/sharing/LeqCGJYp6

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集由都灵理工大学电子与通信工程系创建，旨在为基于深度学习的自主导航算法提供训练和评估的合成数据。数据集包含19456张图像，涵盖了多种农作物如西葫芦、生菜、甜菜和梨树等。创建过程中，使用Blender软件生成3D植物模型，并通过Python脚本自动生成RGB图像及其对应的二值分割掩码。该数据集主要应用于农业机器人导航系统的开发，解决在复杂农业环境中自主导航的挑战。

This dataset was developed by the Department of Electronics and Telecommunications Engineering, Polytechnic University of Turin, aiming to provide synthetic data for training and evaluating deep learning-based autonomous navigation algorithms. The dataset contains 19,456 images covering various crops such as zucchini, lettuce, beets, pear trees and others. During the creation process, 3D plant models were generated using Blender software, and RGB images along with their corresponding binary segmentation masks were automatically generated via Python scripts. This dataset is mainly applied to the development of agricultural robot navigation systems, addressing the challenges of autonomous navigation in complex agricultural environments.

提供机构：

都灵理工大学电子与通信工程系

创建时间：

2023-06-27

搜集汇总

数据集介绍

构建方式

该数据集为合成数据集，旨在探究大型语言模型是否内隐地编码线性空间世界模型。构建时，选取61个常见物体名词与6种空间关系（如上、下、左、右、前、后），通过模板“The <object_1> is <relation> the <object_2>”生成描述空间配置的自然语言句子。所有物体与关系的组合被划分为训练集（90%）和测试集（10%），以保证对未见物体对的泛化评估。每个样本还附有物体在欧几里得空间中的位置元组作为真实标注，用于后续探针训练与因果干预实验。

特点

该数据集的核心特点在于其结构化的空间语义编码。通过线性探针实验发现，模型在激活空间中存在一个低维子空间，其中空间关系以线性方式呈现：对立关系（如上与下）表现为近似反平行的向量，而正交关系（如左与上）则呈近似直角。进一步分析表明，复合关系（如左上与右下）的向量近似于其原子关系向量的线性加和，验证了空间表示的组合性。此外，物体在子空间中的位置形成可分离的聚类，支持了对象位置被一致编码的假设。

使用方法

该数据集主要用于探针训练与因果干预实验。研究者从LLaMA-3.2模型各层的残差流中提取最终token的激活向量，训练线性与非线性探针以解码空间关系，并评估几何一致性。随后，通过激活引导方法，将PCA提取的空间方向向量注入中间层，观察模型输出是否向目标空间关系偏移，以此检验空间表示的功能性使用。数据集还支持跨模型验证，已在LLaMA-3.2-1B和Qwen3-1B等架构上复现了类似的线性空间结构。

背景与挑战

背景概述

在大语言模型（LLM）展现出超越自回归训练目标的涌现能力之际，学界对其是否内化世界模型展开了激烈争论。2025年，剑桥大学、普渡大学等机构的研究者Matthieu Tehenan、Christian Bolivar Moya等人，为验证LLM能否隐式编码线性空间世界模型，构建了一套合成数据集。该数据集包含61个物体与6种空间关系，通过结构化自然语言句子（如“杯子在桌子上方”）描述物体在二维或三维空间中的相对位置。这一数据集的核心研究问题在于：LLM的上下文嵌入中是否存在一个与三维欧几里得空间同构的线性子空间，能够以可解释的几何方式表征物体位置与空间关系。该数据集为揭示LLM内部表征的结构化程度提供了关键实验基础，推动了可解释人工智能与语言模型对齐研究的发展。

当前挑战

该数据集所解决的领域问题在于验证LLM是否真正具备线性空间世界模型，而非仅依赖统计模仿。传统观点认为LLM仅捕获表面相关性，而该数据集通过线性探针与因果干预实验，证实了空间关系以线性编码方式存在于激活空间中，且具有可组合的几何结构。构建过程中面临的挑战包括：需确保物体名称与空间关系词汇的多样性，避免模型记忆特定组合；需生成足够数量的训练样本（如10万句）以支撑探针训练与因果干预，同时保持测试集与训练集物体对不重叠，以评估泛化能力；此外，需精确标注每个样本对应的三维坐标，为探针提供监督信号。这些挑战的克服使得数据集能够有效揭示LLM内部空间表征的线性与组合性特征。

常用场景

经典使用场景

在大型语言模型内部表征的探索中，该合成数据集主要用于验证模型是否隐式编码了线性空间世界模型。通过构造包含61个物体和6种空间关系的自然语言描述（如“杯子在桌子上方”），研究者将物体位置与欧几里得空间坐标对应，从而系统性地探测模型激活中是否涌现出结构化的空间表征。这一设计为评估语言模型的空间推理能力提供了可控的实验范式。

实际应用

在实际应用中，该数据集可服务于具身智能系统的空间推理能力评估与改进。例如，在机器人导航或人机交互场景中，利用该数据集训练或微调语言模型，可使其更准确地理解并执行基于空间关系的指令（如“将杯子放在桌子的左边”）。此外，通过识别模型内部的线性空间子空间，开发者能够实施定向激活干预，以校正模型在空间推理任务中的错误输出，提升AI系统在物理世界中的安全性与可靠性。

衍生相关工作

该数据集衍生了多项开创性工作：首先，研究者基于此数据集训练了线性与非线性探针，揭示了空间关系在模型深层表征中呈现的线性可分离结构。其次，通过主成分分析降维，验证了空间关系子空间具有组合性——复合关系（如“上方且右侧”）的向量近似等于其原子关系向量的和。最后，因果干预实验表明，向该子空间注入特定方向向量可系统性地引导模型输出，证实了该空间表征在生成过程中的功能性作用。这些工作为后续研究提供了方法论框架，推动了可解释人工智能领域的发展。

以上内容由遇见数据集搜集并总结生成