GeoBench

github2023-06-01 更新2025-02-07 收录

下载链接：

https://github.com/davendw49/k2

下载链接

链接失效反馈

资源简介：

GeoBench数据集是一种用于评估语言模型在处理与地球科学相关问题方面的熟练程度的工具，衡量它们在该领域理解和应用知识的能力。该数据集分为两部分。第一部分包含中国地质与地理专业研究生入学考试的题目，包括182道选择题、150道填空题、454道词汇解释题和335道论述题。第二部分包含1,395道来自美国高级研究考试的选择题。

The GeoBench dataset serves as a tool to evaluate the proficiency of language models in addressing issues related to earth sciences, measuring their ability to understand and apply knowledge in this field. The dataset is divided into two parts. The first part includes questions from the entrance examination for postgraduate students in Chinese geology and geography, comprising 182 multiple-choice questions, 150 fill-in-the-blanks, 454 vocabulary explanation questions, and 335 essay questions. The second part contains 1,395 multiple-choice questions from the United States Advanced Research Examination.

提供机构：

上海交通大学等

创建时间：

2023-06-01

原始信息汇总

K2 (GeoLLaMA) 大型地球科学语言模型数据集概述

数据集简介

名称: K2 (GeoLLaMA)
类型: 地球科学领域大型语言模型
基础模型: LLaMA-7B
训练数据:
- 地球科学开放获取论文和维基百科页面（39亿token）
- 知识密集型指令调优数据（GeoSignal）
主要功能: 地球科学知识理解与利用

核心组件

1. 模型权重

Delta权重: k2_fp_delta（在LLaMA基础上的增量权重）
适配器权重: k2_it_adapter（通过PEFT/LoRA训练）
完整模型: k2_v1

2. 数据集

GeoSignal: 指令调优数据集
- 位置: ./data/geosignal/
- Hugging Face: geosignal
GeoBench: 评估基准数据集
- 包含:
  - 183个NPEE选择题
  - 1,395个AP Test选择题
  - 939个主观题
- 位置: ./data/geobench/
- Hugging Face: geobench

训练方法

1. 进一步预训练

脚本: run_clm.py
关键参数:
- 批次大小: 128
- 学习率: 1e-5
- 训练参数: 67亿

2. 指令调优

两阶段训练:
1. 通用指令调优（使用Alpaca-GPT4数据）
2. 专业知识指令调优（使用GeoSignal数据）
脚本: finetune.py
关键参数:
- 批次大小: 128
- 学习率: 3e-4
- LoRA配置: r=8, alpha=16

评估

评估代码: 位于evaluation文件夹
评估基准: GeoBench

许可证

代码: Apache License 2.0
模型/数据: 非商业用途（遵循LLaMA许可证和OpenAI使用条款）

引用

bibtex @misc{deng2023learning, title={K2: A Foundation Language Model for Geoscience Knowledge Understanding and Utilization}, author={Cheng Deng and Tianhang Zhang and Zhongmou He and Yi Xu and Qiyuan Chen and Yuanyuan Shi and Luoyi Fu and Weinan Zhang and Xinbing Wang and Chenghu Zhou and Zhouhan Lin and Junxian He}, year={2023}, eprint={2306.05064}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

GeoBench数据集的构建基于对地质学、地理学和环境科学领域的深入理解，通过收集和整理来自NPEE（全国研究生入学考试）和AP Test（美国大学预修课程考试）的客观题和主观题，形成了包含183道多项选择题和1,395道AP测试题的客观任务集，以及939道主观题的主观任务集。这些题目经过严格的筛选和分类，确保了数据集的多样性和代表性，能够全面评估大语言模型在地球科学领域的知识理解和应用能力。

使用方法

GeoBench数据集的使用方法包括下载数据集文件并加载到本地环境中，用户可以通过Hugging Face平台获取数据集。数据集以标准格式存储，便于直接用于模型训练和评估。用户可以根据需要选择客观题或主观题进行测试，并通过提供的评估代码对模型的表现进行量化分析。此外，数据集还支持与其他地球科学相关的模型和工具集成，帮助研究人员更好地理解和提升模型在地球科学领域的性能。

背景与挑战

背景概述

GeoBench数据集是专为评估地理科学领域大型语言模型（LLMs）能力而设计的首个基准测试工具。该数据集由上海交通大学Acemap团队于2023年创建，主要研究人员包括Cheng Deng、Tianhang Zhang等。GeoBench的核心研究问题在于如何通过客观和主观任务评估模型在地质学、地理学和环境科学等领域的知识理解和应用能力。该数据集的发布为地理科学领域的研究提供了重要的评估工具，推动了该领域语言模型的发展。

当前挑战

GeoBench数据集在构建过程中面临多重挑战。首先，地理科学领域的知识体系复杂且多样化，如何有效整合和标准化这些知识以构建高质量的评估任务是一个难题。其次，数据集中的问题需要涵盖广泛的地理科学主题，同时确保问题的准确性和科学性。此外，评估模型在地理科学领域的表现时，如何设计合理的客观和主观任务以全面衡量模型的能力也是一个挑战。最后，数据集的构建需要大量的领域专家参与，以确保问题的专业性和权威性。

常用场景

经典使用场景

GeoBench数据集在地球科学领域的大语言模型评估中具有重要地位。该数据集通过收集地质学、地理学和环境科学的多项选择题和主观题，为研究人员提供了一个标准化的基准，用于评估模型在理解和利用地球科学知识方面的能力。GeoBench的引入使得研究人员能够更系统地比较不同模型在地球科学任务中的表现，推动了该领域的技术进步。

解决学术问题

GeoBench解决了地球科学领域大语言模型评估的标准化问题。通过提供包含多项选择题和主观题的基准数据集，研究人员能够更准确地评估模型在地球科学知识理解和应用方面的能力。这一数据集不仅填补了地球科学领域缺乏标准化评估工具的空白，还为后续研究提供了可靠的数据支持，推动了地球科学与大语言模型交叉领域的研究进展。

实际应用

GeoBench的实际应用场景广泛，尤其是在地球科学教育和研究中。教育机构可以利用该数据集评估学生对地球科学知识的掌握程度，同时为教师提供教学反馈。研究机构则可以通过GeoBench评估和优化大语言模型在地球科学任务中的表现，从而开发出更智能的地球科学辅助工具，如地质数据分析系统和环境监测模型。

数据集最近研究