earth-love-united-climate-knowledge

Hugging Face2026-05-16 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/ego0op/earth-love-united-climate-knowledge

下载链接

链接失效反馈

官方服务：

资源简介：

Earth Love United Climate Knowledge数据集是一个全面、权威的气候科学知识数据集，专为支持气候AI系统（如GAIA）而设计。数据集包含三个层次：文本知识层（10,128个清理和分块的文本片段，来源包括Wikipedia、arXiv、IPCC AR6、Project Drawdown、US EPA、Earth Love United原创研究和气候经济学，涵盖气候科学、影响、解决方案、政策、正义、生物多样性和区域研究）、气候事实层（124个结构化数据点，每个包含数值、单位、来源、年份和置信度，覆盖大气浓度、全球温度、碳预算、海平面、碳库、生态系统碳数据、解决方案指标、排放部门、气候敏感性和海洋酸化）和地质记忆层（涵盖地球45.4亿年历史，包括4个时代、44个主要事件、比较数据和GAIA语音引用）。文件格式包括JSONL格式文本块、JSON格式结构化事实和地质记忆，以及压缩倒排索引文件，字段含id、来源、标题、文本、日期、主题和置信度（置信度分为非常高、高和中等）。适用于RAG（检索增强生成）、问答系统、气候教育、事实核查和研究等任务，旨在为气候AI聊天机器人、交互式学习体验和气候传播研究提供权威知识支持。数据集采用多种许可证（如CC-BY-4.0、CC-BY-SA 3.0和公共领域），确保商业可行性。

The Earth Love United Climate Knowledge dataset is a comprehensive and authoritative climate science knowledge dataset designed to support climate AI systems (such as GAIA). It consists of three layers: a text knowledge layer (10,128 cleaned and chunked text segments from sources including Wikipedia, arXiv, IPCC AR6, Project Drawdown, US EPA, Earth Love United original research, and climate economics, covering climate science, impacts, solutions, policy, justice, biodiversity, and regional studies), a climate facts layer (124 structured data points, each containing numerical values, units, sources, years, and confidence levels, covering categories such as atmospheric concentrations, global temperature, carbon budget, sea level, carbon pools, ecosystem carbon data, solution metrics, emission sectors, climate sensitivity, and ocean acidification), and a geological memory layer (covering 4.54 billion years of Earths history, including 4 eras, 44 major events, comparative data like CO2 and temperature over time, and GAIA voice references). The dataset files include JSONL-formatted text chunks, JSON-formatted structured facts and geological memory, and compressed inverted index files, with fields such as id, source, title, text, date, topic, and confidence (confidence levels are categorized as very high, high, and medium). It is suitable for tasks like RAG (retrieval-augmented generation), question-answering systems, climate education, fact-checking, and research, aiming to provide authoritative and verifiable knowledge support for climate AI chatbots, interactive learning experiences, and climate communication studies. The dataset uses multiple licenses (e.g., CC-BY-4.0, CC-BY-SA 3.0, and public domain) to ensure commercial viability.

创建时间：

2026-05-15

搜集汇总

数据集介绍

构建方式

该数据集由Earth Love United Foundation精心构建，融合了四个层次的知识体系。文本层从维基百科、arXiv论文、IPCC AR6报告、Project Drawdown解决方案、美国环保署官方页面及原创研究合成中，经清洗、分块与索引，最终获得10128个高质量文本片段。事实层凝聚了124个结构化气候数据点，涵盖大气浓度、全球温度、碳预算、生态指标等关键维度，每个数据点均标注来源、年份与置信度。地质记忆层梳理了地球46亿年历史，囊括4个地质时代、44个重大事件、5次生物大灭绝及不同时期的CO2与温度变化。分岔点层则聚焦10个气候临界要素，详细记录了阈值温度、不可逆性、时间尺度与当前状态。

使用方法

开发者可通过HuggingFace Datasets库便捷加载文本层，使用load_dataset函数指定'text_chunks'配置即获取全部文本块。结构化的气候事实、地质记忆与分岔点数据则以JSON文件形式独立提供，通过hf_hub_download函数下载后可直接解析为Python字典对象。文本块内含来源、主题标签与置信度字段，适合构建基于向量检索的问答系统；数值化的事实数据可用于统计分析或驱动可视化展示；地质事件与分岔点数据为气候叙事提供了深层科学背景，特别适用于需要多维度知识融合的AI应用场景。

背景与挑战

背景概述

Earth Love United Climate Knowledge数据集由Earth Love United基金会于2026年创建，旨在构建一个全面、权威、开源的气候科学知识库，以支撑名为GAIA的气候智能体。该数据集融合了10,128个文本片段、124项结构化气候事实、跨越45.4亿年的地质演化记忆以及10个气候临界点，其核心研究问题聚焦于如何将分散、多维度的气候信息整合为机器可检索的结构化知识，以提升人工智能在气候问答与检索增强生成（RAG）任务中的表现。数据集整合了IPCC AR6报告、维基百科、arXiv论文、Project Drawdown等权威来源，强调零推测、高置信度与碳循环关联性，为气候政策制定、科学研究及公众教育提供了坚实的数据基础，在气候智能体与地球系统建模领域具有开创性影响力。

当前挑战

该数据集面临的领域挑战在于气候知识本身的复杂性与动态性：气候变化涉及大气、海洋、碳循环、生态系统等多系统的非线性交互，且大量知识分散于不同来源、格式与置信度等级中，难以通过单一模型全面掌握。构建过程中，数据集需处理IPCC报告的冗长专业文本、Project Drawdown的教育性内容以及维基百科的开放编辑属性之间的格调与粒度差异；同时，结构化事实需保持跨年份、跨来源的一致性，例如碳预算和温度变化数据可能存在更新后的差异。此外，地质记忆层需将45.4亿年的地球历史压缩为可检索的事件序列，而临界点数据则依赖于尚存不确定性的气候模型阈值，如何在权威性与可解释性之间取得权衡，成为数据集构建的一大挑战。

常用场景

经典使用场景

在气候科学领域，该数据集最经典的用途是构建检索增强生成（RAG）系统，为大型语言模型提供权威且可溯源的气候知识。研究者可利用其四层架构——包含10,128个文本块、124条结构化气候事实、45.4亿年地质记忆以及10个关键气候临界点——来增强AI对气候变化的理解能力。例如，通过索引IPCC AR6报告、arXiv前沿论文与维基百科条目，系统能够精准回答诸如“全球变暖突破1.5°C阈值时的海平面上升贡献”等复杂问题，确保输出兼具科学严谨性与可解释性。

解决学术问题

该数据集针对气候科学领域长期存在的跨学科知识整合难题提供了系统性解决方案。传统研究常因数据来源分散、时间尺度割裂而难以形成全局认知。本数据集通过融合古气候记录（如地质年代中的CO2浓度变化）、当代观测数据（如大气CO2浓度）及未来预测模型（如临界点阈值），首次实现了从“深时”到“当代”的完整知识贯通。其显式标注的置信度机制与引用溯源功能，有效解决了AI生成内容中常见的“幻觉”问题，为气候归因分析、临界点预警研究及碳预算计算提供了可验证的数据基础。

实际应用

在实际应用中，该数据集已被部署于气候智能决策支持系统，辅助政策制定者评估减排路径的紧迫性与有效性。例如，基于结构化事实层中红树林碳汇速率（6.3 tCO2/ha/年）与红树林面积损失数据，系统可生成区域化的自然气候解决方案优先级报告。在碳交易领域，其经济类子集包含碳定价与气候金融条目，支持企业进行碳足迹核算与合规策略模拟。此外，教育机构利用地质记忆层中五次生物大灭绝事件与现有温室气体排放轨迹的对比数据，开发沉浸式气候变化教学工具，强化公众对生态文明建设的科学认知。

数据集最近研究