jirvin16/TEOChatlas
收藏Hugging Face2024-11-14 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/jirvin16/TEOChatlas
下载链接
链接失效反馈官方服务:
资源简介:
TEOChatlas是第一个用于时间地球观测任务的指令调优数据集,包含超过50万个指令跟随示例。这些示例来源于多个公开数据集,包括fMoW、xBD、S2Looking和QFabric,以及GeoChat_instruct的单图像示例。该数据集用于训练TEOChat模型,并包含训练集、评估集以及外部评估数据集(如AID、UCMerced、LRBEN、HRBEN、ABCD和CDVQA)的指令跟随格式转换版本。
TEOChatlas is the first instruction-tuning dataset for temporal earth observation tasks, with over 500k instruction-following examples. It includes temporal examples created from fMoW, xBD, S2Looking, and QFabric, as well as single image examples from GeoChat_instruct. The dataset was used to train the TEOChat model and contains the training set, evaluation sets, and external evaluation datasets (such as AID, UCMerced, LRBEN, HRBEN, ABCD, and CDVQA) converted to instruction-following format.
提供机构:
jirvin16
搜集汇总
数据集介绍

构建方式
在遥感与地球观测领域,数据集的构建往往面临时序信息整合的挑战。TEOChatlas作为首个面向时序地球观测任务的指令调优数据集,其构建过程融合了多个权威遥感数据源。该数据集从fMoW、xBD、S2Looking以及QFabric等公开数据集中提取时序样本,并整合了GeoChat_instruct的单图像指令样本,通过精心设计的指令跟随格式进行重组与标注,最终形成了超过50万条高质量的指令-响应对,为模型训练提供了丰富的时空上下文信息。
特点
该数据集的核心特点在于其专注于时序地球观测任务,填补了该领域指令调优数据的空白。其规模庞大,涵盖多样化的遥感场景与任务类型,包括变化检测、灾害评估与土地利用分类等。数据集不仅包含内部训练与评估集,还提供了多个外部评估数据集(如AID、UCMerced等)的指令格式转换版本,确保了评估的全面性与可比性。这种设计使得数据集能够支持复杂时空推理能力的培养,为开发先进的地球观测视觉语言模型奠定了坚实基础。
使用方法
使用该数据集时,研究人员可通过Hugging Face的`datasets`库便捷加载。通过指定`split`参数,可以灵活选择训练集或特定的评估子集(例如`eval_AID`)。数据加载过程会自动处理下载与解压,最终在本地生成约240GB的数据存储。加载后的数据可直接用于模型训练与评估流程。为保障实验的可复现性,建议在代码中固定缓存目录,并参考提供的论文与代码库以深入了解数据的具体处理与模型训练细节。
背景与挑战
背景概述
遥感与地球观测领域长期致力于从时序影像中解析动态地理现象,然而传统模型在理解复杂时空关联与遵循自然语言指令方面存在局限。为应对这一挑战,斯坦福大学Ermon团队于2024年发布了TEOChatlas数据集,作为首个专为时序地球观测任务设计的指令微调数据集。该数据集整合了fMoW、xBD、S2Looking及QFabric等多个权威遥感数据源,构建了超过50万条指令遵循样本,旨在训练能够理解时空变化并响应开放式指令的大规模视觉语言模型,为智能地球观测分析开辟了新的范式。
当前挑战
在领域层面,时序地球观测任务需克服影像间复杂时空关联建模、多时相变化检测的语义一致性、以及开放域自然语言指令与视觉内容对齐等核心难题。数据构建过程中,挑战主要体现在异构遥感数据源的时空对齐与标准化处理、大规模高质量指令-图像对的自动化生成与人工校验、以及多任务评估体系的设计与集成,这些因素共同构成了数据集构建的技术壁垒。
常用场景
经典使用场景
在遥感与地球观测领域,TEOChatlas作为首个专注于时序地球观测任务的指令微调数据集,其经典应用场景在于训练大规模视觉-语言模型,以理解和分析多时相遥感影像。通过整合fMoW、xBD、S2Looking和QFabric等权威数据源,该数据集构建了超过50万条指令遵循样本,使模型能够学习从影像序列中识别地物变化、监测灾害动态以及解读复杂时空模式。这种设计特别适用于需要模型根据自然语言指令,对时序遥感数据进行推理和问答的任务,为地球科学中的智能解译提供了标准化训练基础。
实际应用
在实际应用层面,TEOChatlas支撑的模型能够服务于灾害应急响应、农业监测、城市规划等多个领域。例如,在洪涝或地震发生后,系统可根据如“对比灾前灾后影像,评估建筑物损毁情况”的指令,自动分析多时相卫星数据,生成直观的灾情报告。在农业中,模型能依据时序影像回答作物生长状态或灌溉需求等问题。这些应用降低了遥感技术使用门槛,使非专业用户也能通过自然语言指令获取定制化的地球观测洞察,提升了决策效率与自动化水平。
衍生相关工作
围绕TEOChatlas衍生的经典工作首推TEOChat模型,这是一个专为时序地球观测设计的大规模视觉-语言助手,能够执行多种指令驱动的遥感任务。该工作开创了将指令微调范式系统化引入地球观测领域的先河,后续研究可在此基础上扩展更多任务类型或融合多模态数据。此外,数据集本身集成了AID、UCMerced、LRBEN等外部评估集的指令化版本,为社区提供了统一的评测基准,激励了更多研究探索遥感领域的通用人工智能助手,推动了该方向的方法创新与标准化进程。
以上内容由遇见数据集搜集并总结生成



