five

cometadata/arxiv-funding-entity-extractions

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/cometadata/arxiv-funding-entity-extractions
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是对`cometadata/arxiv-funding-statements`中资助/奖励实体的提取结果。使用了`funding-entity-extractor`(基于vLLM + LoRA技术)进行提取,基础模型为`meta-llama/Llama-3.1-8B-Instruct`,LoRA模型为`cometadata/funding-extraction-llama-3.1-8b-instruct-artifact-data-mix-grpo-mixed-reward`。数据集包含两种配置:`predictions`(原始提取结果)和`predictions_with_ror`(带有ROR ID的丰富结果)。每行数据包含原始输入列和四个提取列(`extracted_funders`、`extraction_raw`、`extraction_error`、`extraction_latency_ms`)。ROR丰富过程包括对资助者名称的唯一提取、与marple匹配服务的匹配、 curated assignments的补充以及最终的重组。数据集中共有1,823,650行数据,资助者出现次数为4,827,173次,其中66.07%通过marple服务和 curated assignments匹配到ROR ID。

This dataset contains funder/award entity extractions over `cometadata/arxiv-funding-statements`. The extraction was performed using `funding-entity-extractor` (vLLM + LoRA), with the base model `meta-llama/Llama-3.1-8B-Instruct` and LoRA `cometadata/funding-extraction-llama-3.1-8b-instruct-artifact-data-mix-grpo-mixed-reward`. The dataset includes two configurations: `predictions` (original extractions) and `predictions_with_ror` (extractions with ROR IDs attached). Each row contains the original input columns and four extraction columns (`extracted_funders`, `extraction_raw`, `extraction_error`, `extraction_latency_ms`). The ROR enrichment process involves extracting unique funder names, matching them against the marple match service, supplementing with curated assignments, and finally reconciling the matches back to the original parquet shards. The dataset consists of 1,823,650 rows, with 4,827,173 funder occurrences, of which 66.07% were matched to ROR IDs via the marple service and curated assignments.
提供机构:
cometadata
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集基于大规模学术文献资助声明数据集`cometadata/arxiv-funding-statements`,利用微调的大语言模型进行实体抽取构建。具体而言,抽取器采用`funding-entity-extractor`,其以`meta-llama/Llama-3.1-8B-Instruct`作为基座模型,并加载`cometadata/funding-extraction-llama-3.1-8b-instruct-artifact-data-mix-grpo-mixed-reward`这一LoRA适配器,在配备bf16精度的A100-large硬件上以256并发度运行,最终生成了包含1,823,650条记录的数据集。数据集提供两种配置:默认的`predictions`保留原始抽取结果,而`predictions_with_ror`则通过marple匹配服务及人工策展层,为每个资助机构附加了ROR标识符及匹配置信度。
特点
该数据集的核心特点在于其规模宏大且结构精细。每位数据条目不仅包含原始输入字段,还新增了四个抽取列:`extracted_funders`以嵌套列表形式呈现每句资助声明中的资助机构及其奖项信息,`extraction_raw`记录模型原始输出,`extraction_error`标记解析或请求错误,`extraction_latency_ms`包含逐句的处理耗时。尤为突出的是,在`predictions_with_ror`配置中,通过结合自动化匹配与人工策展,成功为66.07%的资助机构出现次数匹配了ROR标识符,显著提升了实体的可链接性与标准化程度,其中策展层专门处理了如'NSF'、'NIH'等高频缩写机构的匹配缺失问题。
使用方法
使用该数据集时,用户可通过Hugging Face Datasets库加载相应配置。例如,加载默认的`predictions`配置可直接获取原始实体抽取结果,适合进行基于文本的分析或下游模型训练;如需使用标准化后的资助机构标识,则应加载`predictions_with_ror`配置,利用`ror_id`字段链接其他知识库或进行资助网络分析。数据以Parquet格式存储,支持高效的分片读取和处理,每片对应原始数据的184个分片之一。用户应重点关注`extracted_funders`字段中的嵌套结构,提取资助机构名称、奖项ID、资助计划及奖项标题等信息,而对于无匹配或低置信度的记录(如`match_confidence`为null),可进一步自行消歧或过滤。
背景与挑战
背景概述
该数据集名为arxiv-funding-entity-extractions,由cometadata团队于近期创建,基于Llama-3.1-8B-Instruct模型与LoRA微调技术,对arXiv预印本中的基金资助声明进行实体抽取。核心研究问题在于从大规模科学文献中自动识别资助机构与奖项信息,以弥补学术出版中资助信息的结构化缺失。该数据集覆盖超过182万条记录,通过vLLM推理框架在A100 GPU上完成高效率抽取,为科研资助分析、跨机构合作网络构建及开放科学评估提供了重要的数据基础设施,对科技政策研究和学术生态分析具有显著推动作用。
当前挑战
该数据集面临的挑战包括:领域问题层面,从非结构化文本中准确抽取多样化的资助机构名称和奖项编号,需应对简称歧义(如NSF、NIH)与全称变体,且不同学科表述差异大;构建过程层面,大规模推理面临高吞吐与低延迟的矛盾,同时需处理解析错误和HTTP错误;此外,资助机构名称与开放研究组织注册库(ROR)的映射覆盖率不足,通过自动匹配服务仅达42.18%,需结合人工策展(curated assignment)补充高频条目,最终将覆盖率提升至66.07%,但仍留有大量未匹配实体,构成后续标注质量与可复现性的瓶颈。
常用场景
经典使用场景
该数据集基于arXiv上超过180万篇学术论文的资助声明,利用微调后的Llama-3.1-8B-Instruct模型进行命名实体抽取,提取每篇论文中提及的资助机构名称、资助编号、资助计划及奖项标题等关键实体信息。其经典使用场景包括构建大规模科研资助知识图谱、训练与评估学术文献信息抽取模型,以及在开放科学领域研究资助分布与资金流向模式。数据集的预测结果以结构化格式呈现,能够为学术信息检索、科学计量分析以及研究政策评估提供高质量的训练与基准数据支持。
衍生相关工作
该数据集衍生了一系列重要的相关研究工作。首先,基于相同的实体抽取框架,研究者可开发适用于不同学科领域或语言版本的资助信息抽取系统,推动跨域迁移学习。其次,数据集中提供的ROR对齐结果可作为标准化机构名称消歧的基准,催生更为精确的科研实体链接方法。此外,该数据集的标注质量与覆盖率分析为构建更复杂的多任务信息抽取模型提供了评估语料,未来有望与科学知识图谱构建、资助网络动态演化分析等方向深度耦合,产出从微观实体到宏观政策的多层次学术洞察。
数据集最近研究
最新研究方向
该数据集聚焦于从arXiv论文的资助声明中提取资助方与获奖项目实体信息,代表了自然语言处理与科学计量学交叉领域的前沿方向。通过引入基于Llama-3.1-8B-Instruct的微调模型和强化学习策略(GRPO),数据集展示了大规模信息抽取的精度突破。特别地,其ROR(Research Organization Registry)富化流程将原始提取结果与权威机构标识符关联,并通过人工策展层解决了NSF、NIH等高缩写频率机构的匹配歧义,将覆盖率从42.18%提升至66.07%,显著增强了科研资助图谱的可靠性。这一工作与当前开放科学运动中对资助透明性和可追溯性的迫切需求紧密相连,为剖析国家间科研投入分配、资助政策影响评估及跨学科合作网络演化提供了结构化数据基础,同时也为预印本生态大数据的结构化利用树立了新标杆。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作