Obscure Scientific Facts Benchmark

github2025-03-04 更新2025-03-05 收录

下载链接：

https://github.com/AzulEye/obscure-scientific-facts-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含2022年发表的科学论文中的不为人知事实的多选问题数据集，用于评估大型语言模型在回忆这些知识方面的能力。

A multiple-choice question dataset containing lesser-known facts from scientific papers published in 2022, designed to evaluate the knowledge recall capability of Large Language Models (LLMs).

创建时间：

2025-03-03

原始信息汇总

Obscure Scientific Facts Benchmark 数据集概述

数据集基本信息

名称: Obscure Scientific Facts Benchmark
目的: 评估大型语言模型(LLMs)对2022年发表的科学研究中冷门事实的记忆能力
数据量: 包含165个冷门科学事实
数据格式: CSV文件(obscure_scientific_dataset.csv)

核心内容

评估结果

模型	准确率
gpt-4o-mini	55%
claude-3-5-haiku-20241022	63%
gpt-4o	69%
claude-3-opus-20240229	71%
claude-3-7-sonnet-20250219	85%
claude-3-5-sonnet-20241022	86%
gpt-4.5-preview	94%

数据集特点

领域: 涵盖物理学、数学、生物学、计算机科学等多个科学领域
来源: 2022年发表的顶级科学出版物
问题类型: 多项选择题
答案设置: 四个选项(A-D)，A选项始终为正确答案

数据集结构

每个条目包含以下字段:

Scientific Field
Journal/Source
Paper Title and Year
Question
Four possible answers (Options A-D)
Correct Answer

创建流程

事实收集: 使用OpenAI的Deep Research功能识别2022年出版物中的冷门科学事实
格式转换: 将事实转化为多项选择题形式
答案设置: 确保A选项始终为正确答案

应用价值

评估模型规模与科学知识保留能力的关系
作为虚拟科学助手的训练基准
帮助研究者导航不断扩展的科学知识库

技术要求

Python版本: 3.7+
依赖包:

pandas numpy openai anthropic tqdm pydantic instructor

许可信息

许可证类型: MIT License

搜集汇总

数据集介绍

构建方式

该数据集的构建采取系统化流程，首先通过OpenAI的Deep Research功能从2022年顶级出版物中识别出冷门科学事实，进而将这些事实转化为包含特定、往往为数值型的多选问题。该过程涉及对科学文献的深入挖掘，确保了数据集的科学性和专业性。

特点

该数据集的特点在于其专注于2022年发表的科研文献中的冷门科学事实，涵盖了不同学科领域。数据集以CSV文件形式呈现，每个条目包括科学领域、期刊来源、论文标题及年份、问题、四个可能的答案选项以及正确答案，其中正确答案始终为选项A。

使用方法

使用该数据集时，用户需先安装Python 3.7+及必要的包，并配置API密钥。通过运行提供的脚本，用户可以对不同的大型语言模型进行评估，并将结果保存至JSON文件。此外，数据集提供了多个功能组件，如加载数据集、随机化选项、创建提示、查询模型和评估模型等，以方便用户进行模型性能的评估和分析。

背景与挑战

背景概述

在科学知识快速膨胀的当下，评估大型语言模型（LLM）对不为人知的科学事实的记忆能力显得尤为重要。'Obscure Scientific Facts'数据集应运而生，旨在评估LLM在回忆2022年发表的科研论文中的冷门科学事实方面的表现。该数据集由一系列从当年顶级出版物中提取的具体科学事实构成，其创建过程利用了OpenAI的深度研究功能，由科研人员精心筛选和编制，对科学知识记忆的研究领域产生了显著影响。

当前挑战

该数据集在构建过程中遇到的挑战主要包括如何确保所选科学事实的准确性和代表性，以及如何将抽象的科学概念转化为具体的多项选择题形式，以适应模型评估的需要。此外，数据集面临的挑战是如何有效评估和比较不同规模的语言模型在记忆冷门科学事实方面的性能差异，这对于理解模型的知识保留和泛化能力至关重要。

常用场景

经典使用场景

在科学研究的背景下，‘Obscure Scientific Facts’数据集被广泛用于评估大型语言模型（LLMs）对2022年发布的研究中不为人知的科学事实的记忆能力。该数据集的经典使用场景主要在于对LLMs进行基准测试，以量化其对科学知识的掌握和保留程度。

解决学术问题

该数据集解决了学术界对于评估LLMs在记忆和回忆科学知识方面性能的问题。通过提供一系列不常见的科学事实，研究者和开发人员能够更好地理解和提升模型在处理特定领域知识的能力，这对于发展更精确的虚拟科研助手和知识导航系统具有重要意义。

衍生相关工作

基于‘Obscure Scientific Facts’数据集的研究，已经衍生出多项相关工作，包括对LLMs进行进一步的性能评估，开发新的评估方法，以及探索模型在处理不同年份、不同领域的科学知识上的表现差异。这些工作共同推动了AI在科学研究和知识管理领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集