patrickfleith/Astro-mcqa
收藏Hugging Face2024-04-19 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/patrickfleith/Astro-mcqa
下载链接
链接失效反馈官方服务:
资源简介:
AstroMCQA数据集主要用于空间工程领域的应用开发者评估不同LLM在多项选择题回答任务上的表现。数据集包含200个专家创建的多项选择题和答案,每个问题都有一个唯一的标识符、问题文本、选项列表、标签列表(表示选项的正确性)、可选的答案解释以及问题是否可回答的布尔值。数据集覆盖了空间工程的多个子领域,包括推进、操作、人类太空飞行、空间环境与效应、空间项目生命周期、通信与链路分析等。数据集的所有实例均为英文,大小为200个问题,适用于模型评估、审计和选择,但不适合用于训练或微调LLM,因为数据集规模较小。
license: CC-BY-4.0
task_categories:
- 多项选择题问答(question-answering)
language:
- 英语
tags:
- 科学
- 航天
- 宇航学
pretty_name: AstroMCQA
size_categories:
- 样本数少于1000
# AstroMCQA 数据集
## 目的与适用范围
本数据集的核心目的,是供航天工程领域的应用开发者,针对多项选择题问答这一特定任务,对大语言模型(Large Language Model, LLM)的性能开展对比评估。
## 预期用途
可用于多款大语言模型的性能对比评估、模型评测、审核与选型;可用于评估不同量化等级、不同提示工程策略的效果,以及领域自适应或领域专属微调的有效性。
## 快速入门
- 在此处浏览数据集:https://huggingface.co/datasets/patrickfleith/Astro-mcqa/viewer/default/train
- 在此Colab中针对AstroMCQA评测一款大语言模型(Mistral-7b):<a target="_blank" href="https://colab.research.google.com/github/patrickfleith/astro-llms-notebooks/blob/main/Evaluate_an_HuggingFace_LLM_on_a_Domain_Specific_Benchmark_Dataset.ipynb">
<img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>
## AstroMCQA 适用场景
本数据集的核心用途,是帮助航天任务设计与运维领域的应用开发者解决如下问题:应当选用哪一款大语言模型?其在不同航天子领域中的性能表现如何?本数据集可用于基准测试不同规模、不同量化方法、不同提示工程策略的模型,以及评估针对航天工程领域多项选择题问答任务进行微调的有效性。
## AstroMCQA 不适用场景
由于数据集规模极为有限,本数据集不适用于大语言模型的训练或微调——即便可将其与其他任务及科学数据集结合,用于元学习场景。
# 数据集详情
### 获取方式
- 手动下载:从Hugging Face Hub获取:https://huggingface.co/datasets/patrickfleith/Astro-mcqa
- 或通过Python代码加载:
python
from datasets import load_dataset
dataset = load_dataset("patrickfleith/Astro-mcqa")
### 数据结构
本数据集包含200道由专家编写的多项选择题及答案,逗号分隔格式的文件中每一行对应一道题目。每条多项选择题问答(Multiple Choice Question Answering, MCQA)数据包含以下字段(列):
- **question**:字符串类型,代表试题题干
- **propositions**:字符串列表,列表中每个元素为一个候选选项,至少存在一个正确选项,也可存在多个正确选项,极端情况下所有选项均正确
- **labels**:整数列表(取值为0或1),列表中每个元素与propositions列表中对应位置的候选选项一一匹配:标签为0代表该选项错误,标签为1代表该选项为正确答案
- **justification**:可选字符串字段,用于提供试题答案的解析说明
- **answerable**:布尔类型,标识该试题是否可被解答,当前AstroMCQA数据集仅包含可解答试题
- **uid**:每条数据的唯一标识符,可用于后续处理任务中的溯源追踪
### 元数据
本数据集采用版本控制,提交历史可通过以下链接查看:https://huggingface.co/datasets/patrickfleith/Astro-mcqa/commits/main
### 语言
数据集内所有数据均采用英语编写
### 数据集规模
包含200道由专家编写的多项选择题及答案
### 试题类型
- 通用知识类:考察航天科学与工程领域的基础通用知识
- 推理类:需要运用逻辑推理能力解答
- 计算类:需要通过数学运算得到数值结果,类似考试题型
### 覆盖主题
覆盖航天工程的多个子领域,包括推进技术、航天运维、载人航天、空间环境与效应、航天项目全生命周期、通信与链路分析等。
# 使用指南与规范
#### 许可证
AstroMCQA © 2024 by Patrick Fleith,采用知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International)授权。
#### 使用限制
无额外使用限制,请严格按照许可协议条款注明正确的原作者署名。
#### 引用方式
P. Fleith, AstroMCQA——面向航天任务工程领域大语言模型评测的宇航多项选择题问答基准数据集, (2024).
#### 更新频率
本数据集将根据用户反馈进行更新,若您希望成为贡献者,请与作者联系。
#### 反馈与纠错
请直接前往Hugging Face平台上的Astro-mcqa数据集页面,通过社区讨论专区提交反馈或报告错误。
#### 联系方式
您可通过Hugging Face社区专区或LinkedIn(Patrick Fleith)给作者发送消息取得联系。
#### 当前局限与未来规划
- 数据规模有限:仅包含200道多项选择题及答案,因此无法用于大语言模型的微调任务,但可作为大型微调数据集池的组成部分使用
- 制作成本高昂:尽管当前规模足以支撑大语言模型评测,但航天工程领域专家的时间稀缺且成本高昂,平均每道多项选择题数据的制作耗时约8分钟,扩充数据量可进一步提升数据集的鲁棒性
- 标注偏差:由于标注者数量极少,数据集可能存在标注偏差
- 地域偏向:数据集可能偏向欧洲航天计划相关内容
- 覆盖不全:尽管已尽力覆盖标注者的专业领域,但本数据集可能未涵盖宇航学的所有子系统或子领域
- 缺乏同行评审:理想情况下本数据集应建立质量管控流程,以确保每条数据的高质量与正确性,但受限于资源条件暂未实现,若您认为此问题亟待改进,欢迎参与贡献
提供机构:
patrickfleith
原始信息汇总
数据集概述
名称: AstroMCQA
目的: 用于太空工程领域的应用程序开发者比较评估大型语言模型(LLM)在多选题回答任务上的性能。



