five

hicai-zju/SciKnowEval

收藏
Hugging Face2025-07-12 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/hicai-zju/SciKnowEval
下载链接
链接失效反馈
官方服务:
资源简介:
SciKnowEval是一个用于评估大型语言模型(LLM)多层级科学知识的基准数据集。该数据集灵感来源于中国古代哲学中的《中庸》原则,旨在从广泛学习、深入探究、深刻思考、清晰辨识和勤奋实践五个维度评估LLM的科学知识掌握能力。数据集包含生物学、化学、物理学和材料学等领域的任务,涵盖了广泛的科学知识,包括知识记忆、知识理解、知识推理、知识辨识和知识应用。数据集的构建采用了从文献语料库生成新的QA对、重构现有QA对和转换科学数据库等多种方法。数据集中的每个任务都经过生物学和化学领域两位专家的验证,以确保数据集的准确性和可靠性。

SciKnowEval is a benchmark dataset for evaluating the multi-level scientific knowledge of large language models (LLMs). Inspired by the principles outlined in the ancient Chinese philosophy of the Doctrine of the Mean, the dataset assesses LLMs based on their proficiency in five dimensions: studying extensively, enquiring earnestly, thinking profoundly, discerning clearly, and practicing assiduously. The dataset includes tasks in the domains of biology, chemistry, physics, and materials, covering a wide range of scientific knowledge, including knowledge memory, knowledge comprehension, knowledge reasoning, knowledge discernment, and knowledge application. The dataset is constructed using a combination of methods such as generating new QA pairs from literature corpus, refactoring existing QA pairs, and transforming scientific databases. Each task in the dataset undergoes validation by two domain experts in biology and chemistry to ensure the accuracy and reliability of the dataset.
提供机构:
hicai-zju
原始信息汇总

SciKnowEval 数据集概述

数据集简介

SciKnowEval 是一个用于评估大型语言模型(LLMs)在多层次科学知识上的能力的基准测试。该基准测试受古代中国哲学“中庸”的深刻原则启发,旨在评估 LLMs 在以下五个维度上的能力:

  1. 广泛学习(知识覆盖)
  2. 深入探究(知识探究与探索)
  3. 深刻思考(知识反思与推理)
  4. 清晰辨别(知识辨别与安全评估)
  5. 勤奋实践(知识实践与应用)

数据集结构

评估能力

  • L1: 广泛学习(知识覆盖)
  • L2: 深入探究(知识探究与探索)
  • L3: 深刻思考(知识反思与推理)
  • L4: 清晰辨别(知识辨别与安全评估)
  • L5: 勤奋实践(知识实践与应用)

数据统计

数据集包含多个科学领域的任务,具体统计信息请参考 figure/stats.png

数据构建

数据集的构建包括以下几个步骤:

  1. 从文献语料库生成新的 QA 对:从 BioRxiv、PubMed 和教科书数据库等来源收集科学论文,使用大型语言模型生成 QA 对。
  2. 重构现有 QA 对:从现有科学基准(如 MedMCQA、SciEval 等)中采样 QA 对,并使用 LLMs 重构问题和选项。
  3. 转换科学数据库:将生物和化学数据库(如 PubChem、UniProtKB)中的数据转换为适合 LLM 评估的文本格式。
  4. 质量控制:每个任务都由生物和化学领域的专家进行验证,以确保数据的相关性和正确性。

数据集使用

安装

bash git clone https://github.com/HICAI-ZJU/SciKnowEval.git cd SciKnowEval pip install -r requirements.txt

数据准备

  • 下载数据集:可以从 HuggingFace 或 GitHub 仓库的 ./raw_data/ 文件夹中下载。
  • 数据格式:每个数据项必须包含原始信息,如问题、选项、答案、类型、领域、级别、任务和子任务。

模型准备

  • 对于关系提取任务,使用 word2vec 模型计算文本相似度。
  • 对于使用 GPT 评分的任务,设置 OpenAI API 密钥。

评估

运行 eval.py 进行模型评估: bash python eval.py --data_path your/model/predictions.json --word2vec_model_path path/to/GoogleNews-vectors-negative300.bin --gen_evaluator gpt-4o --output_path path/to/your/output.json

引用

@article{feng2024sciknoweval, title={SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models}, author={Feng, Kehua and Ding, Keyan and Wang, Weijie and Zhuang, Xiang and Wang, Zeyuan and Qin Ming and Zhao, Yu and Yao, Jianhua and Zhang, Qiang and Chen, Huajun}, year={2024}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在科学知识评估领域,SciKnowEval数据集的构建采用了多源融合与智能增强相结合的创新范式。其核心方法涵盖三个维度:首先从BioRxiv、PubMed等学术文献库及教材数据库中提取原始材料,通过大语言模型生成符合科学规范的问答对;其次对MedMCQA、SciEval等现有科学基准进行重构,利用模型重写问题并重新排序选项以避免数据污染;最后将PubChem、UniProtKB等结构化科学数据库转化为适合语言模型评估的文本格式。所有数据均经过生物学和化学领域专家的双重验证,确保科学准确性与逻辑严谨性。
特点
该数据集以《中庸》哲学思想为框架,构建了涵盖知识记忆、理解、推理、判别与应用的五层评估体系。其显著特征体现在多维度任务设计上,包含生物学与化学两大核心领域,每个领域下设细胞功能、分子机制等十余项细分任务。数据规模达到万级样本量,每个样本均标注了对应的认知层级、任务类型及科学领域。特别值得注意的是,数据集通过精心设计的提示工程实现了科学问题与认知层级的精确映射,为评估大语言模型的科学认知深度提供了结构化度量标准。
使用方法
使用该数据集需遵循标准化评估流程。首先通过HuggingFace平台或项目仓库获取JSON格式数据集,保持原始数据中问题、选项、答案键及元数据字段的完整性。评估时需准备模型预测结果文件,在保留所有原始属性的基础上添加模型响应字段。运行官方评估脚本需配置word2vec预训练模型用于关系抽取任务,同时可选用GPT-4o等模型作为生成式评估器。评估系统支持分层次、分领域的细粒度性能分析,最终输出包含各维度得分的结构化评估报告。
背景与挑战
背景概述
SciKnowEval数据集由浙江大学HICAI团队于2024年创建,旨在系统评估大语言模型在科学知识领域的多层次能力。该数据集受《中庸》哲学思想启发,构建了涵盖知识记忆、理解、推理、辨析与应用五个维度的评估框架,聚焦生物学与化学等核心科学领域。通过整合学术文献、现有基准与专业数据库,并借助大语言模型辅助生成与重构,该数据集为科学智能的发展提供了严谨的评估标准,推动了模型在复杂科学问题解决中的能力验证与比较研究。
当前挑战
SciKnowEval致力于解决大语言模型在科学知识处理中面临的评估挑战,包括模型对跨层级科学认知能力的统一量化,以及在知识推理与伦理辨析等高阶任务中的稳健性评估。数据构建过程中,需克服科学文本的语义深度与领域专业性带来的标注困难,确保生成的问题答案对既符合原文依据又避免外部信息污染。同时,将结构化数据库转化为自然语言问答时,需维持科学表述的精确性与多样性,并通过专家双重校验以保障数据质量与可靠性。
常用场景
经典使用场景
在科学知识评估领域,SciKnowEval数据集被广泛用于系统性地评估大型语言模型在生物学和化学等多学科中的多层次知识掌握能力。该数据集通过涵盖知识记忆、理解、推理、辨别和应用五个维度,为研究者提供了一个标准化的测试平台,用以衡量模型在复杂科学问题上的表现。其经典使用场景包括在学术研究中作为基准测试工具,帮助比较不同模型在科学任务上的性能差异,从而推动模型在科学知识处理方面的优化与创新。
解决学术问题
SciKnowEval数据集有效解决了当前大型语言模型在科学领域评估中缺乏系统性、多层次基准的学术问题。传统评估往往侧重于单一的知识记忆或简单推理,而该数据集通过整合从文献提取、现有基准重构到数据库转换的多样化数据构建方法,实现了对模型知识深度与广度的全面检验。这不仅填补了科学知识评估的空白,还为理解模型在科学思维、伦理判断及实际应用等方面的局限性提供了实证基础,促进了人工智能与科学交叉研究的深入发展。
衍生相关工作
基于SciKnowEval数据集,学术界衍生了一系列经典研究工作,例如在模型优化方面,研究者利用其多层次评估结果开发了针对科学知识增强的训练策略,如领域自适应微调和知识注入技术。同时,该数据集启发了类似基准的构建,如扩展至物理学、材料科学等新领域,并促进了跨模型比较框架的发展。此外,相关项目如SciEval、SciBench和SciAssess等也受其影响,共同推动了科学智能评估生态系统的完善,为大型语言模型在科学应用中的可靠性提升奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作