vector-100k

Hugging Face2026-05-08 更新2026-05-09 收录

下载链接：

https://huggingface.co/datasets/Alfaxad/vector-100k

下载链接

链接失效反馈

官方服务：

资源简介：

VectorOS Vector 100k SimSat VLM 数据集是一个高保真多模态指令数据集，专为地理空间流行病学任务的视觉语言模型微调而设计。该数据集包含100,000个聊天式示例，源自30个关注区域（AOIs）的10,000个地理空间芯片。每个芯片包括一个1024x1024的四面板视觉包（包含SimSat Sentinel-2真彩色视图、假彩色NIR-red-green视图、Mapbox卫星视图和对齐的证据覆盖层）、侧边栏JSON文件（包含数字特征、源路径、来源指针、质量字段和许可证标志）以及风险瓦片目标JSON文件。数据集覆盖了登革热/伊蚊、疟疾/按蚊和血吸虫病三个疾病模块，并提供了训练（72,000例）、验证（14,000例）和测试（14,000例）三个分割。数据来源包括SimSat Sentinel-2产品、Mapbox卫星静态影像、CHIRPS降雨数据、JRC全球地表水、ESA WorldCover、WorldPop人口数据、OpenStreetMap等。该数据集旨在支持公共健康监测的决策推理，避免个体健康声明或治疗指导。

The VectorOS Vector 100k SimSat VLM dataset is a high-fidelity multimodal instruction dataset designed for fine-tuning visual language models for geospatial epidemiology tasks. It contains 100,000 chat-style examples derived from 10,000 geospatial chips across 30 Areas of Interest (AOIs). Each chip includes a 1024x1024 four-panel visual package (containing SimSat Sentinel-2 true-color view, false-color NIR-red-green view, Mapbox satellite view, and aligned evidence overlay), sidebar JSON files (containing numerical features, source paths, provenance pointers, quality fields, and license flags), and risk tile target JSON files. The dataset covers three disease modules: dengue/Aedes, malaria/Anopheles, and schistosomiasis, and provides three splits: training (72,000 examples), validation (14,000 examples), and test (14,000 examples). Data sources include SimSat Sentinel-2 products, Mapbox satellite static imagery, CHIRPS rainfall data, JRC Global Surface Water, ESA WorldCover, WorldPop population data, OpenStreetMap, etc. The dataset aims to support decision-making reasoning for public health surveillance, avoiding individual health claims or treatment guidance.

创建时间：

2026-05-07

原始信息汇总

VectorOS Vector 100k SimSat VLM 数据集概述

数据集基本信息

数据集名称：VectorOS Vector 100k SimSat VLM Dataset
创建时间：2026-05-06T17:28:22Z
语言：英文
许可证：其他（未具体说明）
任务类别：视觉问答、文本生成
标签：地理空间、遥感、公共卫生、媒介传播疾病、Sentinel-2、Mapbox、多模态、弱监督

数据集规模

总样本数：100,000 个聊天风格示例
地理芯片数：10,000 个
兴趣区（AOI）数：30 个

数据划分

划分	样本数
训练集	72,000
验证集	14,000
测试集	14,000

数据内容与结构

每个地理芯片包含以下内容：

图像包：image_packets/<aoi>/<chip>_packet.png，1024×1024 四面板视觉包
侧车元数据：sidecars/<aoi>/<chip>_sidecar.json，包含数值特征、来源路径、溯源指针、质量字段和许可标志
风险瓦片目标：targets/<aoi>/<chip>_risk_tile.json，严格 VectorOS 风险瓦片目标 JSON
原始 SimSat 产品：raw_simsat/<aoi>.tar，每 AOI 的 tar 压缩包，包含：
- sentinel_rgb.png
- sentinel_false_color_nir_red_green.png
- sentinel_bands_red_green_blue_nir.npz
- sentinel_metadata.json
- mapbox_satellite.png
- mapbox_metadata.json

四面板图像包布局

左上：SimSat Sentinel-2 真彩色 RGB
右上：SimSat Sentinel-2 假彩色 NIR-红-绿
左下：Mapbox 卫星上下文
右下：对齐的证据叠加层（来自 ESA WorldCover、JRC 全球地表水、CHIRPS 降雨量、WorldPop、OSM 以及弱向量/疾病标签）

任务类型

每个芯片贡献 10 种任务变体：

risk_tile_json - 风险瓦片 JSON
officer_explanation - 官员解释
evidence_cards_json - 证据卡片 JSON
uncertainty_audit_json - 不确定性审计 JSON
field_task_brief - 现场任务简报
habitat_patch_summary - 栖息地斑块摘要
exposure_summary_json - 暴露摘要 JSON
hard_negative_assessment - 硬负样本评估
source_provenance_json - 来源溯源 JSON
copilot_why_here - 副驾驶“为何在此”

疾病模块与兴趣区

覆盖三种初始 VectorOS 疾病模块：

登革热/伊蚊（3,334 个芯片）

曼谷、凯恩斯、科伦坡、达卡、伊基托斯、巴拿马城、累西腓、里约热内卢、圣胡安、新加坡

疟疾/按蚊（3,333 个芯片）

博博迪乌拉索、法拉芬尼、伊法卡拉、基苏木、科霍戈、曼希萨、纳夫龙戈、恩切伦格、西亚亚、托罗罗

血吸虫病（3,333 个芯片）

布西亚、金贾、卡夫尔谢赫、卡富埃、曼戈奇、姆比塔/霍马湾、姆万扎、姆韦阿、尼亚美、理查德托尔

采样策略

芯片经过分层采样，共 5 种类型：

采样类型	数量
标签阳性抖动	3,524
硬负样本（水域/城市）	2,762
暴露上下文	1,568
随机生态负样本	1,472
不确定稀疏上下文	674

数据来源图层

SimSat Sentinel-2 产品（通过 Earth Search / Sentinel-2 L2A）
Mapbox 卫星静态影像
CHIRPS v2 日降雨量
JRC 全球地表水 v1.4
ESA WorldCover 2021 v200
WorldPop 人口表面
OpenStreetMap / OSM 医疗和运营上下文
OpenDengue V1.3（适用时）
疟疾地图集项目提取（用于疟疾 AOI）
GBIF 出现记录（用于媒介或中间宿主证据）

验证结果

构建时验证：

芯片：10,000
总示例：100,000
图像包存在：10,000
Sentinel 包可用：10,000
Mapbox 包可用：10,000
目标模式有效：10,000
VLM 记录模式有效：100,000

额外本地验证：

40,000 张引用图像已通过头部/大小验证
400 张图像的随机方差抽查未发现低方差样本
上传前已检查暂存包无临时 HF/Mapbox 令牌泄露

安全性声明与预期用途

仅用于人群层级的决策支持推理
明确避免：个体健康声明、现场验证的局部疾病存在声明、个体护理或治疗指导、校准的流行病学预测声明

局限性

标签为弱监督标注，非真实地面实况
GBIF、MAP、OpenDengue 等开放监测记录存在存在性/调查偏差
弱标签缺失不等于现场缺失
风险评分为指令微调目标，非校准预测
Mapbox 重新分发在项目特定用户验证标志下

仓库布局

README.md data/ train.jsonl, validation.jsonl, test.jsonl image_packets/<aoi>/.png sidecars/<aoi>/.json targets/<aoi>/*.json raw_simsat/<aoi>.tar metadata/ chip_index.json, chip_index.csv, splits.json, manifest.json, provenance.json, validation_summary.json, raw_simsat_index.json, hf_layout.json schemas/ risk_tile_target.schema.json, vlm_record.schema.json

搜集汇总

数据集介绍

构建方式

VectorOS Vector 100k SimSat VLM Dataset的构建源于对地理空间流行病学领域视觉-语言模型微调需求的深刻洞察。研究团队选取了30个疫源关注区域（AOI），从登革热/伊蚊、疟疾/按蚊、血吸虫病三大疾病模块中系统采样，生成了10,000个地理空间芯片。每个芯片均包含真实SimSat哨兵二号真彩色与假彩色影像、Mapbox卫星视图及对齐的开源证据图层叠加图。通过对每个芯片设计10种任务变体，最终构建了包含100,000个聊天风格指令样本的高保真多模态指令数据集，覆盖风险区域分析、证据卡片生成、不确定性审计等多样化地理空间流行病学任务。

使用方法

数据集的使用遵循简洁高效的流程。用户通过HuggingFace Datasets库加载'records'配置即可直接访问训练（72,000例）、验证（14,000例）和测试（14,000例）划分的VLM指令记录。由于图像、侧车及目标文件以仓库相对路径存储，建议使用snapshot_download下载完整的仓库快照后，以快照根目录解析路径进行本地微调。对于需要提取特定AOI原始SimSat资源的场景，可通过解压raw_simsat目录下对应AOI的tar归档文件实现。数据集兼容LiquidAI/LFM2.5-VL-450M等视觉-语言模型，其弱监督标签适用于群体层面的公共卫生决策支持型推理，但需注意避免将其用于个体健康主张或校准后的流行病学预测。

背景与挑战

背景概述

该数据集名为Vector-100k，由Alfaxad Eyembe于2026年创建，专为VectorOS黑客松项目而设计，旨在微调视觉语言模型以应对地理空间流行病学任务。核心研究问题在于如何利用多模态遥感数据与弱监督标签，提升模型在病媒传播疾病监测中的推理能力。数据集融合了Sentinel-2卫星影像、Mapbox地图视图及多种环境图层（如降水、人口、土地利用），覆盖登革热、疟疾和血吸虫病三大模块，共30个兴趣区域，包含10万条对话式指令样本。其对相关领域的贡献在于为地理空间人工智能与公共卫生交叉研究提供了首个高保真、多任务微调基准，推动了弱监督学习在实际流行病学场景中的应用。

当前挑战

数据集面临的挑战可从两方面阐述。在领域问题层面，地理空间流行病学长期受困于标签稀疏性和环境异质性，传统模型难以泛化至不同生态区；Vector-100k通过整合GBIF、OpenDengue等多源弱标签与分层采样策略（如阳性抖动、硬负例、暴露背景），部分缓解了数据偏差，但标签本质仅为代理信号而非地面真值，模型仍可能受限于登记偏倚与时空不确定性。在构建过程中，涉及40个不同疾病区域的10000个地理空间芯片的协调采集、四面板复合图像生成及多图层对齐，需确保SimSat产品、Mapbox影像与开放证据层的空间一致性；此外，数据包的传输验证、令牌安全性扫描及弱监督标签的仿真校准均构成显著工程挑战。

常用场景

经典使用场景

Vector-100k数据集专为地理空间流行病学领域的视觉-语言模型微调而设计，其核心应用场景在于驱动多模态指令跟随任务。该数据集包含十万条对话式样本，源自覆盖全球三十个兴趣区域的万张地理空间影像块，每张影像块均整合了SimSat Sentinel-2真彩色与假彩色视图、Mapbox卫星影像及开放图层证据叠加图。研究人员可利用这一高保真资源，训练模型精准理解遥感影像与文本指令的关联，例如基于多源遥感数据回答关于病媒传播疾病风险的问题，从而显著提升模型在地理空间推理任务中的表现。

解决学术问题

该数据集主要解决了地理空间流行病学中弱监督学习与多模态推理的学术难题。传统方法依赖昂贵的地面调查数据，难以大规模建模病媒传播疾病的空间分布。Vector-100k通过融合CHIRPS降雨、ESA WorldCover土地覆盖、JRC水体数据、WorldPop人口分布及开放病媒记录等十余种开源图层，构建了十万级弱标注训练样本，为弱监督视觉-语言模型提供了标准化基准。其意义在于突破了遥感数据与文本理解之间的语义鸿沟，使模型能够从不完整的开放数据中学习稳健的疾病风险表征，推动了地理空间人工智能在公共卫生领域的理论发展。

实际应用

在实际应用中，Vector-100k数据集可支撑全球病媒传播疾病监测的决策支持系统。例如，公共卫生机构可基于微调后的视觉-语言模型，自动分析特定区域的卫星影像，生成登革热、疟疾或血吸虫病的风险评注与现场任务简报。该数据集特别适用于资源受限地区，通过融合遥感与开放数据，实现对疾病暴发热点区域的快速筛查与优先级排序，辅助部署病媒控制资源。此外，其生成的不确定性审计与证据溯源报告，能够为流行病学专家提供可解释的风险评估依据，从而提升公共卫生应急响应的效率与科学性。

数据集最近研究