funding-extraction-harness-benchmark

Hugging Face2026-02-21 更新2026-02-22 收录

下载链接：

https://huggingface.co/datasets/cometadata/funding-extraction-harness-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含四个配置：'qwen3-8b-entities-non-thinking'、'qwen3-8b-entities-thinking'及其对应的评估指标数据集。主数据集包含DOI、资助者信息（包括资助机构名称和奖项详情）以及推理字段。评估指标数据集包含各级别的评估指标，如精确度、召回率、F1分数等。每个配置都分为训练集和测试集，并提供了详细的字节大小和样本数量。数据集适用于自然语言处理任务，特别是与资助信息和实体识别相关的应用。

This dataset includes four configurations: 'qwen3-8b-entities-non-thinking', 'qwen3-8b-entities-thinking', and their corresponding evaluation metric datasets. The main dataset contains DOIs, funder information (including funding institution names and award details), and inference fields. The evaluation metric datasets cover multi-level evaluation metrics such as precision, recall, F1-score and other relevant indicators. Each configuration is split into training and test sets, with detailed byte sizes and sample counts provided. This dataset is applicable to natural language processing (NLP) tasks, particularly applications related to funding information and entity recognition.

创建时间：

2026-02-21

搜集汇总

数据集介绍

构建方式

在学术文献信息抽取领域，资助机构识别是理解科研生态的关键环节。该数据集通过整合多款前沿大语言模型，包括Llama-3.1-8B、Qwen3-8B及Qwen3.5-9B等，对科学文献中的资助信息进行系统化抽取。构建过程涉及从文献中提取资助机构名称、奖项标识、项目标题及资助方案等结构化字段，并辅以模型推理过程的文本记录，形成了涵盖训练集与测试集的基准数据。

使用方法

研究者可利用该数据集进行资助信息抽取模型的性能评测与比较分析。通过加载特定配置的数据文件，可以获取模型预测的实体列表及其推理过程，进而结合配套的评估指标数据计算模型在各细分层面的表现。该数据集支持对训练集与测试集的独立分析，适用于模型验证、消融研究及新方法基准测试等多种科研场景。

背景与挑战

背景概述

在学术出版与科研管理领域，精准追踪科研项目的资助来源是评估研究影响力与资源分配效率的关键环节。Funding Extraction Harness Benchmark 数据集应运而生，旨在为大型语言模型在科研文献中的资助信息抽取任务提供标准化评估基准。该数据集由相关研究机构于近期构建，其核心研究问题聚焦于如何从学术论文的元数据中自动识别并结构化提取资助机构、奖项编号及资助方案等关键实体。通过提供包含多模型预测结果与详细推理链的标注数据，该数据集推动了自然语言处理技术在学术文本细粒度信息抽取方向的发展，为科研诚信分析与资助政策研究提供了可靠的数据支撑。

当前挑战

该数据集致力于解决科研文献中资助信息抽取这一特定领域问题，其面临的挑战主要体现在信息表述的多样性与复杂性上。学术文本中资助实体的提及方式往往不规范，存在大量缩写、别名及跨语言变体，要求模型具备深厚的领域知识以进行准确消歧。在构建过程中，挑战源于高质量标注数据的匮乏，需要人工专家对原始文献进行精细的语义解析与实体对齐，确保资助机构、奖项ID和资助方案之间层级关系的准确性。此外，评估不同大语言模型在此任务上的性能时，还需设计能够衡量精确率、召回率及F系列分数的多维评价体系，以全面反映模型在复杂上下文中的推理与抽取能力。

常用场景

经典使用场景

在学术信息抽取领域，资助信息的自动化识别与结构化处理构成了研究数据管理的关键环节。Funding-Extraction-Harness-Benchmark数据集通过提供包含DOI、资助机构、奖项标识及资助方案等结构化字段的标注数据，为大型语言模型在细粒度实体抽取任务上的性能评估与比较建立了标准化基准。该数据集典型应用于训练和验证如Llama、Qwen等模型变体，以精准提取学术文献中的资助实体及其关联属性，从而支撑自动化文献元数据增强系统的开发。

解决学术问题

该数据集致力于解决自然语言处理中结构化信息抽取的若干核心挑战，特别是针对学术文本中资助信息的复杂嵌套与模糊表述问题。通过提供多配置的模型预测结果与人工标注的对比数据，它使得研究者能够系统评估不同模型架构与训练策略在实体识别任务上的精确度、召回率及F值等指标。其意义在于为资助信息抽取这一特定领域建立了可复现的实验框架，推动了细粒度命名实体识别与关系抽取方法学的进步，并为学术出版领域的元数据自动化治理提供了理论依据。

实际应用

在实际应用层面，该数据集可直接服务于学术出版机构、科研资助管理平台及开放科学基础设施的建设。基于数据集训练的模型能够自动化处理海量学术文献，准确抽取资助机构、项目编号及资助方案信息，从而显著提升科研成果溯源与影响力评估的效率。此类系统可集成至数字图书馆、机构知识库及科研信息管理系统，实现资助数据的实时归档与关联分析，为科研政策制定、资源分配优化及跨学科合作网络构建提供数据驱动的决策支持。

数据集最近研究