five

adambuttrick/funding-extraction-lora-predictions

收藏
Hugging Face2026-03-28 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/adambuttrick/funding-extraction-lora-predictions
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: - config_name: grpo-stepfinal features: - name: doi dtype: string - name: funding_statement dtype: string - name: ground_truth_funders dtype: string - name: predicted_funders dtype: string - name: raw_output dtype: string splits: - name: test num_bytes: 605985 num_examples: 322 download_size: 192888 dataset_size: 605985 - config_name: llama-3.1-8b-grpo-stepfinal features: - name: doi dtype: string - name: funding_statement dtype: string - name: ground_truth_funders dtype: string - name: predicted_funders dtype: string - name: raw_output dtype: string splits: - name: test num_bytes: 617247 num_examples: 322 download_size: 200496 dataset_size: 617247 - config_name: sft-grpo-v3 features: - name: doi dtype: string - name: funding_statement dtype: string - name: ground_truth_funders dtype: string - name: predicted_funders dtype: string - name: raw_output dtype: string splits: - name: test num_bytes: 597165 num_examples: 322 download_size: 194864 dataset_size: 597165 - config_name: test_e2e features: - name: doi dtype: string - name: funding_statement dtype: string - name: ground_truth_funders dtype: string - name: predicted_funders dtype: string - name: raw_output dtype: string splits: - name: test num_bytes: 113108 num_examples: 10 download_size: 42300 dataset_size: 113108 configs: - config_name: grpo-stepfinal data_files: - split: test path: grpo-stepfinal/test-* - config_name: llama-3.1-8b-grpo-stepfinal data_files: - split: test path: llama-3.1-8b-grpo-stepfinal/test-* - config_name: sft-grpo-v3 data_files: - split: test path: sft-grpo-v3/test-* - config_name: test_e2e data_files: - split: test path: test_e2e/test-* ---
提供机构:
adambuttrick
搜集汇总
数据集介绍
main_image_url
构建方式
在学术文献信息抽取领域,资助者识别是确保研究透明度与可追溯性的关键环节。该数据集通过整合多个基于大型语言模型的预测配置构建而成,每个配置均针对相同的322条测试样本,涵盖了从原始资助声明到模型预测结果的完整数据流。构建过程依托于GRPO(Group Relative Policy Optimization)等强化学习微调策略,对Llama-3.1-8B等模型进行迭代优化,生成了包括最终步骤、最佳步骤及中间步骤在内的多样化预测输出,从而形成一个系统性的模型性能评估基准。
特点
本数据集的核心特征在于其多层次、多配置的比较架构,为模型预测的鲁棒性分析提供了丰富维度。每个数据条目均包含数字对象标识符(DOI)、原始资助声明、真实资助者列表、模型预测资助者列表及原始模型输出,确保了数据溯源的完整性与可验证性。数据集涵盖八个独立配置,如grpo-stepfinal、llama-3.1-8b-grpo-stepbest等,这些配置反映了不同训练阶段与微调策略下的模型表现,便于研究者横向对比不同方法在资助者抽取任务上的效能差异。
使用方法
该数据集主要服务于自然语言处理与学术信息挖掘领域,可用于评估与比较不同微调策略下大型语言模型在资助者实体抽取任务上的性能。研究者可加载特定配置的测试分割,通过对比ground_truth_funders与predicted_funders字段,计算精确率、召回率等指标,从而量化模型预测的准确性。此外,raw_output字段为误差分析与模型行为解释提供了原始文本依据,支持深入探究模型在复杂语义理解中的决策过程,进而指导后续模型的优化与部署。
背景与挑战
背景概述
在学术出版与科研管理领域,精准识别和提取研究论文中的资助方信息对于追踪科研资金流向、评估机构影响力以及促进开放科学至关重要。funding-extraction-lora-predictions数据集应运而生,其核心研究问题聚焦于利用自然语言处理技术,特别是基于LoRA(Low-Rank Adaptation)微调的大型语言模型,从科学文献的资助声明中自动提取资助实体。该数据集由相关研究团队构建,旨在推动学术文本信息抽取技术的发展,通过提供包含真实资助声明、标准资助方标注及模型预测结果的结构化数据,为优化命名实体识别与关系抽取模型提供关键基准,从而提升科研资助透明度与数据分析效率。
当前挑战
该数据集致力于解决学术文本中资助方实体抽取这一特定信息抽取任务的挑战,其核心难点在于资助声明文本的多样性与复杂性,例如资助方名称的缩写变体、多机构联合资助表述以及非结构化描述,这要求模型具备强大的语义理解与实体消歧能力。在构建过程中,挑战主要源于高质量标注数据的获取与一致性维护,需要领域专家对资助方实体进行精确标注,并处理不同来源文献的格式差异,同时确保标注标准统一,以支撑模型训练与评估的可靠性。
常用场景
经典使用场景
在学术出版与信息抽取领域,该数据集聚焦于资助机构识别任务,其经典使用场景在于评估和优化大语言模型在科学文献中的资助信息提取性能。通过提供包含DOI、资助声明、真实资助者与模型预测结果的结构化数据,研究人员能够系统比较不同微调策略(如GRPO、SFT)下模型的准确性与泛化能力,为自然语言处理技术在学术元数据抽取中的应用奠定基准。
实际应用
在实际应用层面,该数据集可直接服务于学术出版机构、科研管理机构及开放科学平台,用于自动化构建资助关系数据库、监测科研资金流向,以及增强文献检索系统的精准度。其提供的模型预测结果能够集成至学术工作流中,辅助实现大规模文献的资助者标注、合规性检查与趋势分析,从而提升科研管理效率与数据驱动的决策支持能力。
衍生相关工作
围绕该数据集衍生的经典工作主要包括基于LoRA等参数高效微调技术的资助抽取模型优化研究、结合强化学习与人类反馈的序列生成方法改进,以及跨领域命名实体识别模型的迁移学习探索。这些研究不仅深化了对大语言模型在专业领域适应机制的理解,还催生了多模态学术信息处理框架,为后续的细粒度科学元数据抽取任务提供了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作