DefExtra, DefSim

github2026-02-11 更新2026-02-19 收录

下载链接：

https://github.com/Media-Bias-Group/SciDef

下载链接

链接失效反馈

官方服务：

资源简介：

DefExtra是一个用于定义提取评估的人类标注数据集，包含来自75篇论文的268个定义，其中60篇与媒体偏见相关，15篇非媒体偏见相关。DefSim是一个用于定义相似性评估的人类标注数据集，包含60个定义对，每个对都有1-5的相似性评分。

DefExtra is a human-annotated dataset for definition extraction evaluation, containing 268 definitions from 75 academic papers. Among these papers, 60 are related to media bias while the remaining 15 are unrelated to media bias. DefSim is a human-annotated dataset for definition similarity evaluation, including 60 definition pairs, each assigned a similarity score ranging from 1 to 5.

创建时间：

2026-01-30

原始信息汇总

SciDef 数据集概述

数据集简介

SciDef 是一个为支持从科学文献中进行定义抽取和定义相似性研究而提供的资源集合。其核心包含两个人工标注的数据集。

数据集构成

1. DefExtra：定义抽取数据集

目的：用于评估定义抽取任务。
内容：
- 包含来自 75 篇论文的 268 个定义。
- 涵盖 60 篇与媒体偏见相关的论文和 15 篇非媒体偏见相关的论文。
重要说明：
- 公开版本仅提供标记信息（无文本摘录）。
- 使用者需从自有 PDF 文件中补充文本内容，并将补充后的 CSV 文件转换为 SciDef 所需的 JSON 格式。
- 详细操作指南见 docs/defextra_integration.md。
访问地址：https://huggingface.co/datasets/mediabiasgroup/DefExtra

2. DefSim：定义相似性数据集

目的：用于评估定义相似性任务。
内容：
- 包含 60 个定义对。
- 每个定义对带有 1-5 分的相似性人工评分。
访问地址：https://huggingface.co/datasets/mediabiasgroup/DefSim

引用信息

若使用本资源，请引用以下文献： bibtex @misc{kucera2026scidefautomatingdefinitionextraction, title={SciDef: Automating Definition Extraction from Academic Literature with Large Language Models}, author={Filip Kuv{c}era and Christoph Mandl and Isao Echizen and Radu Timofte and Timo Spinde}, year={2026}, eprint={2602.05413}, archivePrefix={arXiv}, primaryClass={cs.IR}, url={https://arxiv.org/abs/2602.05413}, }

搜集汇总

数据集介绍

构建方式

在科学文献爆炸式增长的背景下，自动化提取定义成为提升知识获取效率的关键。SciDef项目构建的DefExtra与DefSim数据集，其构建过程体现了严谨的学术标注范式。DefExtra数据集源自75篇学术论文，通过人工精读与标注，从媒体偏见相关及非相关领域文献中识别并标记了268个明确定义。其构建核心在于提供精准的文本位置标记，研究者需根据这些标记从原始PDF文献中还原完整的定义文本，这一设计确保了数据集的版权合规性与可扩展性。DefSim数据集则聚焦于定义语义相似性评估，由专家对60组定义配对进行人工评判，并赋予1至5分的相似度评分，为衡量定义一致性提供了高质量基准。

特点

DefExtra与DefSim数据集的设计彰显了其在科学文本处理领域的独特价值。DefExtra数据集的一个显著特点是其标注的精确性与领域针对性，它不仅涵盖了媒体偏见这一特定研究主题，还包含了对照领域的定义，为领域适应性与泛化能力研究提供了素材。数据集仅提供定义在原文中的位置标记而非完整文本，这一特性既保护了原始文献的版权，也鼓励研究者构建个性化的文献处理流程。DefSim数据集则以高质量的人工相似度评分为核心，其小规模、高精度的配对数据为定义相似度模型的微调与评估提供了可靠的黄金标准。两个数据集相辅相成，共同支持从定义识别到语义理解的全流程研究。

使用方法

为促进定义提取研究的可复现性，SciDef项目提供了详尽的使用指南与工具链。对于DefExtra数据集，使用者首先需利用其提供的位置标记，从自有或可访问的PDF文献库中提取对应的文本片段，完成数据的水合过程，并按照指定格式转换为可用的JSON标注文件。DefSim数据集则可直接用于评估定义相似度计算模型的性能。项目配套的脚本工具集支持完整的评估流程，涵盖多种模型与提示策略的对比实验。研究者可通过项目提供的命令行接口，便捷地运行基准测试，或利用DSPy框架优化自定义的提取器，从而系统化地验证与改进定义处理模型在科学文献上的效能。

背景与挑战

背景概述

在科学文献爆炸式增长的背景下，快速准确地从海量学术文本中提取关键概念的定义已成为信息检索与自然语言处理领域的重要课题。SciDef项目由Filip Kučera、Christoph Mandl等研究人员于2026年提出，并得到Media Bias Group等机构的支持，其核心目标是开发自动化工具以支持从科学文献中提取定义并评估定义相似性。该项目发布的DefExtra和DefSim数据集，分别针对定义抽取与定义相似性评估任务，通过人工标注构建高质量基准，旨在推动学术文本理解技术的可复现研究，对提升科学知识发现效率具有显著影响力。

当前挑战

定义抽取任务面临的核心挑战在于科学文本中定义表述的多样性与隐含性，定义可能以显式或隐式形式散布于复杂句法结构中，且同一概念在不同学科或语境下存在释义差异，这要求模型具备深层次的语义理解与上下文推理能力。在数据集构建过程中，挑战主要源于标注的一致性保障与数据可获取性，DefExtra数据集仅提供标注位置标记而非文本片段，研究者需自行从原始PDF文献中还原内容，这一过程涉及格式解析与文本对齐的技术难题，同时标注工作需克服学科专业知识壁垒以确保标注质量。

常用场景

经典使用场景

在科学文献信息抽取领域，DefExtra和DefSim数据集为定义抽取与相似性评估提供了关键基准。研究者通常利用DefExtra数据集训练和验证大型语言模型，从学术论文中自动识别并提取术语定义，这一过程涉及对PDF文档的解析与标注对齐。同时，DefSim数据集则用于衡量不同来源定义之间的语义相似度，支持跨文献的定义一致性分析，为知识图谱构建和科学概念标准化奠定基础。

衍生相关工作

基于该数据集衍生的经典工作包括采用多模态学习框架的定义抽取系统，如结合文本与图表信息的混合模型。在定义相似性计算方面，研究者开发了基于BERT变体的语义匹配网络，显著提升了评分准确性。同时，该数据集催生了面向科学领域的预训练语言模型微调范式，并推动了如DSPy等提示优化工具在学术文本处理中的创新应用，形成了跨任务的定义理解技术生态。

数据集最近研究