SciExpl Dataset

Name: SciExpl Dataset
Creator: 塔图大学计算机科学学院
Published: 2025-05-23 20:46:52
License: 暂无描述

arXiv2025-05-23 更新2025-05-27 收录

下载链接：

https://github.com/gima9552/SciExplDataset

下载链接

链接失效反馈

官方服务：

资源简介：

SciExpl Dataset是由塔图大学计算机科学学院创建的一个科学解释标注数据集，包含272条经过精心挑选和分类的科学解释句子。这些句子来源于生物技术和生物物理学领域的科学文献，旨在探索科学解释中的新兴类别。数据集通过Prolific平台上的众包标注进行了质量控制和分类，形成了包括因果关系、机制性原因、对比、相关性、功能性、实用方法等不同类别的解释。该数据集现已在GitHub上公开，供研究界使用，以促进对科学解释的理解和机器学习解释能力的提升。

The SciExpl Dataset is a scientific explanation annotation dataset developed by the School of Computer Science, Tartu University. It contains 272 carefully selected and categorized scientific explanation sentences sourced from scientific literature in the fields of biotechnology and biophysics, with the goal of exploring emerging categories within scientific explanations. Quality control and categorization work were carried out through crowdsourced annotations on the Prolific platform, leading to the establishment of multiple explanatory categories including causal relations, mechanistic explanations, comparisons, correlations, functionalities, and practical approaches, among others. Currently, this dataset is publicly released on GitHub for the research community to utilize, so as to promote the understanding of scientific explanations and enhance the interpretability of machine learning models.

提供机构：

塔图大学计算机科学学院

创建时间：

2025-05-23

原始信息汇总

SciExplDataset 数据集概述

数据集内容

包含科学文献中的解释性句子数据集
数据文件格式：TSV（制表符分隔值）
数据内容分类依据：
- 解释类型
- 因果关系

文件结构

SciExplDatasets ├── scientific_explanation_dataset.tsv 科学文献解释句子数据集（按解释类型和因果关系分类） ├── License.md 许可证文件 └── README.md 说明文档

数据类型

文本数据（科学文献中的解释性句子）

搜集汇总

数据集介绍

构建方式

在科学解释研究领域，SciExpl数据集的构建采用了严谨的文献筛选与归纳分类方法。研究团队从生物技术和生物物理学领域的开放获取文献中精选了340个解释性句子，通过基于文本的演绎分类法，从数据本身自然涌现出六种解释类型，避免了预设分类的主观性。为确保标注质量，研究通过Prolific平台招募120名标注者进行多轮独立标注，最终保留272个高质量句子，并采用Krippendorf's alpha系数验证了标注者间0.667的良好一致性。

使用方法

作为高质量的科学解释标注资源，该数据集适用于自然语言处理与计算语言学多个研究方向。研究者可基于其精细的类型标注开发解释生成模型，或构建解释质量评估框架。在可解释人工智能领域，该数据集提供的科学解释范式可用于增强模型的解释能力与人类相似性。使用时应关注其特殊的分类层级结构，建议先根据解释强度（强/弱/多路径）进行粗粒度分析，再深入具体解释类型。数据集通过GitHub仓库公开，包含原始语句、多标注者标签及一致性分析结果，支持端到端的研究流程。

背景与挑战

背景概述

SciExpl数据集由塔尔图大学计算机科学研究所的Giacomo Magnifico和Eduard Barbu于2025年创建，旨在填补科学文献中解释性文本标注数据集的空白。该数据集聚焦于生物技术和生物物理学领域的科学解释，从PubMed的PMC开放获取子集中精选了340个句子，通过归纳分类法识别出因果性、机械因果性、对比性、相关性、功能性和实用性六种解释类型。研究团队通过Prolific平台招募120名标注者进行多轮标注，最终保留了272个高质量解释句子，Krippendorf's alpha值达到0.667，显示出良好的标注一致性。这项工作为可解释人工智能和计算语言学领域提供了首个专注于科学解释结构化分类的标注资源。

当前挑战

该数据集面临双重挑战：在领域问题层面，科学解释具有高度语境依赖性，如何区分因果性解释与机械因果性解释等相近类别存在显著困难，标注过程中这些类别的平均一致率明显低于其他类型；在构建过程层面，解释文本需要同时满足明确解释项（explanandum）和专业性要求，导致原始语料筛选耗时，最终仅27%的候选句子入选。多标注者方案虽然提升了可靠性，但不同背景标注者对功能性解释与实用性解释的认知差异，使得必须通过二次分类（强关联/弱关联/多路径关联）才能达成可接受的标注一致性。

常用场景

经典使用场景

在自然语言处理和机器学习领域，SciExpl数据集被广泛用于研究和开发解释性模型。其精心标注的科学解释句子为研究者提供了丰富的语料，用于训练和评估模型在生成人类可理解的解释方面的能力。特别是在生物技术和生物物理学领域，该数据集帮助模型学习如何构建因果、机制和对比等多种类型的解释。

解决学术问题

SciExpl数据集解决了当前机器学习中解释性不足的核心问题。通过提供人类生成且标注清晰的科学解释，该数据集填补了大规模解释性数据集的空白。它不仅帮助研究者理解科学文献中解释的多样性，还为开发更接近人类解释风格的算法提供了基准。数据集中的分类框架进一步推动了关于解释类型和结构的学术讨论。

实际应用

在实际应用中，SciExpl数据集为医疗诊断、科学教育和技术文档生成等场景提供了重要支持。在医疗领域，基于该数据集训练的模型能够生成更准确的病理机制解释；在教育领域，它帮助开发智能辅导系统，为学生提供清晰的科学概念解析。此外，在自动化报告生成系统中，该数据集提升了技术文档的解释质量和可读性。

数据集最近研究