ecology-georeferencing dataset

github2025-03-01 更新2025-03-02 收录

下载链接：

https://github.com/google-research/ecology-georeferencing

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了一系列生态学论文中的图形地理参照任务的地面真实数据点，用于评估大型语言模型在识别和参照图形中地理位置的能力。

This dataset provides ground truth data points for graphical georeferencing tasks drawn from a collection of ecological research papers, designed to evaluate the ability of Large Language Models (LLMs) to recognize and reference geographic locations in the accompanying figures.

创建时间：

2025-03-01

原始信息汇总

数据集概述

数据集名称

Georeferencing figures in ecology papers

数据集简介

该数据集是一个基准数据集，旨在通过地理参照从生态学论文中的图表提取结构化信息。

数据集用途

该数据集用于评估当前的语言模型（LLMs）在图表地理参照任务上的性能。

数据集构成

PDF文件：包含生态学论文的PDF文档及其原始论文链接。
图像文件：从PDF文档中提取的图表图像。
GeoJSON文件：包含图表在空间坐标中的真实范围。

数据集特点

每个数据点包含一个图表及其对应的地理参照信息。
数据集中的图表经过筛选，确保每个图表只代表一个研究区域。
地理参照区域通常为图表中最小的感兴趣区域。

数据集文件结构

index.csv：包含数据点的信息，如记录ID、论文标题、图表编号、原始论文链接、PDF文件名、GeoJSON文件名和图像文件名。
pdfs：包含PDF文件的文件夹。
annotations：包含GeoJSON文件的文件夹。
images：包含图像文件的文件夹。
georeferencing.ipynb：一个示例笔记本，用于读取index.csv并在地图上绘制一个或多个地理参照框以及相应的图像。

数据示例

数据集中包含了一个示例笔记本的渲染结果，展示了GeoJSON注解在地图上的应用。

注意：这不是官方支持的Google产品。

搜集汇总

数据集介绍

构建方式

该数据集的构建旨在通过地面调查与传感器收集的生态学数据，转化为可结构化处理的地理参照信息。数据集包含了选取自生态学论文中的图像，并为其提供了地理位置的参照。具体而言，数据集由PDF格式的论文、从论文中提取的图像、以及标有图像真实地理范围的GeoJSON文件构成。构建过程中，研究团队遵循特定规则确定地理参照区域，如仅包含最小的研究区域，且在图像中不含有多重研究区域的情况下进行标注。

特点

本数据集的特色在于其将生态学文献中的视觉信息与地理位置信息相结合，为机器学习模型提供了评估地理参照任务性能的基准。数据集涵盖了多样化的生态学论文图像，并为其提供了精确的地理范围标注。此外，通过排除含有多个研究区域的图像，确保了数据集的纯净度和标注的一致性。

使用方法

使用该数据集时，用户可以依据提供的CSV索引文件，查找对应的PDF论文、图像以及GeoJSON文件。通过样例的Jupyter Notebook，用户可以加载GeoJSON注释，并在地图上绘制出图像的地理参照范围，进而评估机器学习模型在图像地理参照任务上的表现。

背景与挑战

背景概述

ecology-georeferencing dataset是一项旨在推动生态学领域数据结构化的重要研究工作。该数据集的创建源于全球生态学家对于生态系统关键问题的探索，如物种分布、野生动物种群受人类活动与气候变化影响的情况等。尽管这些信息最终会以学术论文、环境影响评估报告等形式呈现，但信息从报告中提取并转化为政策决策的过程却充满了挑战。该数据集由一系列地面真实数据点组成，旨在评估当前大型语言模型在图表地理参考任务上的表现，其核心研究问题是实现从生态文献中提取结构化信息，进而提升现有数据库的信息丰富度。此数据集自发布以来，对促进生态信息结构化、提高政策制定效率等领域产生了显著影响。

当前挑战

该数据集面临的挑战主要在于实现图表的地理参考，即如何将论文中的图表与地球上的真实位置相对应。这一任务不仅涉及到图表本身，还需要结合图例和论文正文提供的信息。此外，在定义地理参考区域时也存在一定的细微差别，例如区分兴趣区域和背景区域、处理多个兴趣区域的存在、以及确定地图与非地图内容的边界等。这些挑战的存在使得自动化地从生态文献中提取结构化信息仍然是一项具有挑战性的任务。

常用场景

经典使用场景

该ecology-georeferencing dataset数据集在生态学领域中被广泛用于评估和改进大型语言模型在从学术文献中提取地理空间信息的能力。通过此数据集，研究者可以训练模型以识别并关联论文中的图像与实际地理位置，进而实现从数十年生态学文献中提取结构化信息的目标。

实际应用

在实际应用中，此数据集辅助于构建能够将学术文献中的图像与具体地理位置相关联的人工智能模型，这对于环境政策制定、生物多样性保护以及生态系统的持续监测具有显著意义。模型的输出可以加速决策过程，提高信息利用效率。

衍生相关工作

基于该数据集，已经衍生出多项相关工作，包括开发自动化工具以大规模提取和分析生态学文献中的地理信息，以及利用这些信息来构建更为全面的野生动物种群数据库。这些研究不仅推动了生态学领域的知识积累，也为跨学科的数据整合提供了新的视角和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集