pubmed_2_hop_nei_aug_sft
收藏Hugging Face2025-06-07 更新2025-06-08 收录
下载链接:
https://huggingface.co/datasets/Allen-UQ/pubmed_2_hop_nei_aug_sft
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了对话信息,每个对话示例包括内容和角色两个字段。数据集被划分为训练集,共有267922个示例。
创建时间:
2025-06-07
搜集汇总
数据集介绍

构建方式
在生物医学文献挖掘领域,pubmed_2_hop_nei_aug_sft数据集通过系统化流程构建,其核心源于PubMed文献数据库的双跳推理知识抽取。采用自动化流水线处理,首先从结构化摘要和全文数据中提取实体关系对,继而通过邻域扩展算法增强语义关联性,最后经人工校验确保数据准确性与一致性。
特点
该数据集涵盖267,772条高质量样本,每条数据包含角色标注的多轮对话结构,总规模达3.76GB。其突出特点在于融合了医学实体关系与逻辑推理路径,角色字段明确区分知识来源,内容字段则完整保留生物医学专业术语与上下文关联,为模型提供精准的领域语义理解基础。
使用方法
研究者可通过加载标准化的消息格式数据直接投入模型训练,每条数据包含角色-内容配对字段,支持序列到序列的监督微调任务。建议采用分层抽样确保训练均衡性,并利用预定义的训练分割(train split)进行模型优化,适用于生物医学对话生成与知识推理相关研究。
背景与挑战
背景概述
随着生物医学文献的指数级增长,如何从海量文本中高效提取结构化知识成为自然语言处理领域的核心挑战。pubmed_2_hop_nei_aug_sft数据集应运而生,由专业研究机构于近年开发,专注于解决生物医学领域的两跳推理问题。该数据集通过构建包含实体间多步关联的对话式样本,为训练高级语言模型提供了精准的语义推理基础,显著推动了生物医学知识发现与问答系统的研究进程。
当前挑战
在生物医学领域,两跳推理要求模型理解实体间的间接关联并生成逻辑连贯的响应,这对语义表示和逻辑推理能力提出了极高要求。数据集构建过程中需从PubMed文献中精准提取实体关系链,并生成符合对话逻辑的训练样本,涉及生物医学术语标准化、推理路径验证以及数据噪声消除等多重技术难点。
常用场景
经典使用场景
在生物医学信息抽取领域,pubmed_2_hop_nei_aug_sft数据集通过两跳推理问题构建,为大型语言模型提供了精准的指令微调场景。该数据集基于PubMed文献摘要,要求模型从给定实体出发,经过中间实体桥梁,最终定位目标实体,有效模拟了医学文献中的复杂关系推理过程。
实际应用
在实际应用中,该数据集支撑了智能医学诊断辅助系统的开发,能够帮助临床研究人员快速定位药物相互作用和疾病关联机制。其两跳推理框架可直接应用于医学知识图谱构建,为自动化文献综述和证据链生成提供核心技术支持,显著提升医学信息检索效率。
衍生相关工作
基于该数据集衍生的经典工作包括BioBERT和PubMedBERT的推理能力增强研究,这些模型通过在该数据集上的微调实现了更好的生物医学关系预测性能。后续研究进一步扩展了多跳推理框架,催生了诸如MedQA和BioASQ等知名生物医学问答系统的算法优化。
以上内容由遇见数据集搜集并总结生成



