gazet-dataset

Hugging Face2026-04-21 更新2026-04-22 收录

下载链接：

https://huggingface.co/datasets/developmentseed/gazet-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Gazet数据集是一个用于地理空间任务的合成训练数据集，旨在微调小型语言模型。该数据集基于Overture Maps和Natural Earth的parquet数据集生成，主要支持两种任务：SQL生成和地点提取。SQL生成任务的输入为用户查询和模糊匹配的候选实体（CSV格式），输出为DuckDB空间SQL查询；地点提取任务的输入为自然语言查询，输出为包含地名、国家代码和子类型的结构化JSON。数据格式为JSONL，每行采用聊天模板格式的对话。数据集包含训练集、验证集和测试集，分别针对SQL生成和地点提取任务。数据通过SQL模板从真实的Overture/Natural Earth空间关系（如邻接、包含、相交等）生成，模板同时产生训练SQL和自然语言问题。数据集规模中等（10K<n<100K），语言为英语。

The Gazet dataset is a synthetic training dataset for geospatial tasks, designed to fine-tune small language models. It is generated based on parquet datasets from Overture Maps and Natural Earth, primarily supporting two tasks: SQL generation and place extraction. For the SQL generation task, the input is a user query and fuzzy-matched candidate entities (in CSV format), and the output is a DuckDB spatial SQL query. For the place extraction task, the input is a natural language query, and the output is structured JSON containing place names, country codes, and subtypes. The data format is JSONL, with each line in a chat template format dialogue. The dataset includes training, validation, and test sets, each tailored for SQL generation and place extraction tasks. The data is generated through SQL templates from real Overture/Natural Earth spatial relationships (such as adjacency, containment, intersection, etc.), with the templates simultaneously producing training SQL and natural language questions. The dataset is medium-sized (10K<n<100K) and in English.

创建时间：

2026-04-20

原始信息汇总

Gazet数据集概述

数据集基本信息

许可证: MIT
任务类别: 文本生成
语言: 英语
标签: 文本到SQL、地理空间、地理编码、DuckDB、合成数据
数据规模: 10K<n<100K

数据集目的

为在Overture Maps和Natural Earth的parquet数据集上执行地理空间任务的小型语言模型微调提供合成训练数据。

核心任务

1. SQL生成 (`sql/`)

输入: 用户查询 + 模糊匹配的候选实体（CSV格式）
输出: DuckDB空间SQL查询

2. 地点提取 (`places/`)

输入: 自然语言查询
输出: 包含地点名称、国家代码和子类型的结构化JSON

数据格式

每个JSONL行都是一个采用聊天模板格式的对话： json { "messages": [ {"role": "system", "content": "..."}, {"role": "user", "content": "..."}, {"role": "assistant", "content": "..."} ] }

数据划分

任务	训练集	验证集	测试集
SQL	`sql/train.jsonl`	`sql/val.jsonl`	`sql/test.jsonl`
地点提取	`places/train.jsonl`	`places/val.jsonl`	`places/test.jsonl`

详细信息可参见stats.json文件中的按类别样本计数。

数据生成方法

数据通过将SQL模板应用于真实的Overture/Natural Earth空间关系（邻接、包含、相交等）生成。模板同时产生训练用的SQL语句和自然语言问题。

相关资源

代码与开发: 训练和评估所使用的代码位于developmentseed/gazet GitHub仓库。
已训练模型: developmentseed/gazet-model - 基于此数据集微调的Qwen3.5-0.8B模型。

搜集汇总

数据集介绍

构建方式

Gazet数据集采用合成生成策略，基于Overture Maps和Natural Earth两大权威地理空间数据源构建。通过设计SQL模板并应用于真实的空间关系（如邻接、包含、相交等），系统化地生成训练样本。每个样本均包含自然语言问题及其对应的DuckDB空间SQL查询，确保了数据在语义与语法层面的双重准确性。生成过程兼顾了地理实体的多样性与空间查询的复杂性，为模型提供了丰富的训练场景。

使用方法

使用者可通过Hugging Face平台获取数据集文件，并依据任务类型选择SQL生成或地点提取对应的数据分割。数据以标准的消息角色格式呈现，可直接用于训练如Qwen等系列语言模型。建议参考关联的GitHub代码库以复现训练与评估流程，或基于预训练的gazet-model进行下游应用开发。该数据集为地理空间自然语言处理研究提供了即用型的高质量语料，显著降低了领域特定模型构建的技术门槛。

背景与挑战

背景概述

地理空间信息处理作为人工智能与地理信息系统交叉的前沿领域，近年来因开放地图数据的普及而备受关注。Gazet数据集由Development Seed团队于2024年创建，旨在为小型语言模型提供针对地理空间任务的微调数据，其核心研究问题聚焦于自然语言到空间SQL查询的转换以及地理实体提取。该数据集基于Overture Maps和Natural Earth的开放地理数据，通过合成方法生成训练样本，推动了地理空间自然语言处理技术的发展，为地理信息检索、智能地图交互等应用提供了关键数据支撑。

当前挑战

地理空间自然语言处理面临的核心挑战在于准确理解模糊的地理描述并将其转换为精确的结构化查询，这需要模型处理复杂空间关系如邻接、包含和交叉。在数据集构建过程中，挑战主要来自如何从真实地理数据中生成多样且语义合理的训练样本，同时确保合成数据在空间逻辑和语言表达上的一致性。此外，平衡不同地理实体类型与空间关系的覆盖度，以及维护生成数据与真实世界地理分布的对应关系，也是构建高质量地理空间数据集的关键难点。

常用场景

经典使用场景

在空间数据智能处理领域，Gazet数据集为地理空间任务提供了高质量的合成训练数据，其经典使用场景聚焦于微调小型语言模型，以执行基于Overture Maps和Natural Earth数据的SQL查询生成与地点提取任务。通过模拟真实的空间关系，如邻接、包含和交集，该数据集能够生成自然语言问题与对应的DuckDB空间SQL查询，为模型训练提供了结构化的对话格式，从而有效支持地理空间信息检索与分析的自动化流程。

解决学术问题

Gazet数据集主要解决了地理空间计算中自然语言到结构化查询的转换难题，特别是在文本到SQL生成和地点实体提取方面。它通过合成数据缓解了地理空间领域标注数据稀缺的问题，为学术研究提供了标准化的评估基准，推动了小型语言模型在专业垂直领域的应用探索。该数据集的意义在于降低了地理空间任务的门槛，促进了跨学科研究，如地理信息系统与自然语言处理的融合，为智能地理信息检索系统的开发奠定了数据基础。

实际应用

在实际应用中，Gazet数据集可赋能智能地图服务和地理数据分析平台，例如，用户通过自然语言询问“附近有哪些公园”，系统能自动生成SQL查询并从空间数据库中检索结果。它还可用于增强地理编码系统的准确性，支持城市规划、环境监测和商业选址等场景，通过自动化处理降低人工干预成本，提升空间数据查询的效率和用户体验，为现实世界的地理信息需求提供可靠的技术支撑。

数据集最近研究