five

BAGEL

收藏
arXiv2026-04-18 更新2026-04-21 收录
下载链接:
https://huggingface.co/datasets/EarthSpeciesProject/BAGEL
下载链接
链接失效反馈
官方服务:
资源简介:
BAGEL是一个专注于动物知识评估的基准数据集,由地球物种项目联合多所高校研究机构共同创建。该数据集包含11,852条多选问题,涵盖动物分类学、形态学、栖息地、行为、发声、地理分布和物种互动等多个方面。数据来源于Wikipedia、Global Biotic Interactions、bioRxiv和Xeno-canto等科学文献和参考资源,通过精心筛选和自动生成的方式构建。BAGEL旨在评估语言模型在封闭书测试环境下对动物相关知识的掌握程度,为生物多样性相关应用提供可靠性改进的测试平台。

BAGEL is a benchmark dataset dedicated to animal knowledge assessment, co-developed by the Earth Species Project and multiple university research institutions. It comprises 11,852 multiple-choice questions covering various aspects including animal taxonomy, morphology, habitats, behavior, vocalization, geographic distribution, and species interactions. The dataset is constructed through rigorous screening and automated generation, with data sourced from scientific literature and authoritative reference resources such as Wikipedia, Global Biotic Interactions, bioRxiv, and Xeno-canto. BAGEL is designed to evaluate language models' mastery of animal-related knowledge in closed-book test environments, and serves as a reliability-enhanced testbed for biodiversity-related applications.
提供机构:
地球物种项目; 纽约大学·数据科学中心; 纽约大学上海分校·数据科学中心; 纽约大学上海分校·纽约大学-华东师范大学数学科学研究所
创建时间:
2026-04-18
搜集汇总
数据集介绍
构建方式
BAGEL数据集通过整合四个互补的动物知识来源构建而成,包括维基百科的物种百科全书条目、全球生物相互作用数据库的生态关系记录、bioRxiv预印本平台的动物相关科学文献,以及Xeno-canto动物声音库的声学元数据。构建过程采用半自动化流程,首先从各来源提取原始文本或结构化数据,随后利用GPT-4o-mini等大语言模型生成封闭式四选项选择题,并经过质量过滤与选项随机排序处理,最终形成涵盖分类学、形态、栖息地、行为、发声、地理分布和物种相互作用等多维度的标准化评测集合。
特点
该数据集的核心特点在于其专注于动物专业知识评估的封闭书测试范式,要求模型仅凭内部参数知识进行推理,无需外部检索支持。其问题来源具有高度异质性,覆盖从百科全书事实到生态互动推理、科学文献解读及声学文本描述等不同知识形态,能够细致刻画模型在动物领域的知识广度与推理深度。此外,数据集提供按来源领域、分类群和知识类别的细粒度分析支持,有助于识别模型在生物多样性相关应用中的系统性优势与缺陷。
使用方法
使用BAGEL时,研究者需在严格的封闭书评估协议下进行,即模型在推理阶段仅接收问题题干与四个选项,不得接触原始来源文本。评估通常采用确定性解码与贪婪生成策略,计算模型在各来源领域及整体上的准确率。数据集支持对模型在动物专业知识上的泛化能力进行跨域比较,并可结合难度分层与维度分解结果,深入分析模型在特定知识类型或生态场景中的表现差异,为提升语言模型在生物多样性领域的可靠性提供基准测试平台。
背景与挑战
背景概述
BAGEL(Benchmark for Animal knowledGe Expertise in Language models)数据集于2026年由Earth Species Project、纽约大学数据科学中心等机构的研究团队联合创建,旨在系统评估大语言模型在动物专业知识领域的闭卷问答能力。该数据集聚焦于动物自然史知识的深度评估,涵盖分类学、形态学、栖息地、行为、发声、地理分布及物种相互作用等多个维度,其构建基于维基百科、全球生物相互作用数据库、生物预印本平台bioRxiv和生物声学数据库Xeno-canto四大异构数据源。BAGEL的推出填补了现有通用知识评测基准在长尾专业领域评估上的空白,为语言模型在生物多样性相关应用中的可靠性提供了新的测试标准,推动了领域特定知识泛化研究的发展。
当前挑战
BAGEL数据集面临的挑战主要体现在两个方面:其一,在解决领域问题方面,该数据集旨在评估语言模型对动物专业知识的闭卷掌握能力,但模型在异构数据源上表现差异显著,尤其在生物声学文本领域表现较弱,揭示了模型在跨领域知识泛化与专业词汇推理上的不足;其二,在构建过程中,研究团队需克服多源数据整合、自动生成问答对的质量控制、选项位置偏差校正以及专业术语一致性等难题,同时需确保生成的题目在闭卷设置下具备自包含性与推理深度,避免因数据源偏差或生成噪声影响评估的准确性。
常用场景
经典使用场景
在自然语言处理领域,BAGEL数据集专为评估大型语言模型在动物专业知识方面的封闭式知识掌握能力而设计。其经典使用场景主要体现在对模型进行跨源域、多维度动物知识的系统性测评。该数据集通过整合来自维基百科的物种百科知识、全球生物相互作用数据库的生态关系推理、生物预印本平台的科学文献解读以及鸟类声音数据库的声学文本描述,构建了一个覆盖分类学、形态学、栖息地、行为、发声、地理分布和物种相互作用等多方面的综合评估体系。研究人员利用这一数据集,能够在统一的封闭书面试题协议下,量化比较不同模型在动物相关专业知识上的表现差异,从而深入探究模型在特定领域知识泛化与推理上的能力边界。
解决学术问题
BAGEL数据集主要解决了当前大型语言模型评估中存在的领域知识泛化不足的学术问题。传统广泛领域知识基准如MMLU或科学问答基准虽能衡量模型的通用科学素养,但难以精确评估模型在动物学、生态学等长尾专业知识上的掌握程度。该数据集通过聚焦动物中心的封闭式问答,有效测量了模型在没有外部检索的情况下,对物种层面事实、生态关系及自然历史推理的编码与泛化能力。其意义在于填补了语言模型在生物多样性相关专业知识评估上的空白,为研究领域特定知识的表征与泛化机制提供了新的实验平台,进而推动了模型在生态保护、生物声学等实际应用中的可靠性提升。
衍生相关工作
BAGEL数据集的推出催生了一系列围绕动物专业知识评估与模型优化的衍生研究工作。在基准构建方面,它启发了更细粒度的生态知识评估体系,如针对特定分类群或地理区域的专项测评。在模型改进上,许多研究利用BAGEL揭示的模型弱点,开发了针对生物多样性领域的微调策略与增强训练方法,以提升模型在动物声学文本理解、生态交互推理等任务上的表现。同时,该数据集也与现有基准如BEANS(动物声音基准)、BioCLIP(生物视觉识别模型)及环境科学评估基准(如EnviroExam)形成了互补关系,共同推动了跨模态生物多样性基础模型的发展,为构建更全面、可靠的生态人工智能系统奠定了重要基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作