医学文献萃取后大模型插件数据
收藏浙江省数据知识产权登记平台2026-05-26 更新2026-05-27 收录
下载链接:
https://www.zjip.org.cn/home/announce/info
下载链接
链接失效反馈官方服务:
资源简介:
本数据集合为自主构建的知识胶囊提取与外部KV注入(KVI)算法框架的直接产出,通过将医学文献等公开语料输入自研的文档分块与三元组提取流水线,由冻结基础大语言模型(frozen LLM)自动抽取并编译生成,是对现有公开语料进行系统性结构化转化的智力成果。生成后的数据集合本身具有独立的应用价值:作为可直接注入大语言模型注意力机制的结构化知识记忆,可在不更新任何模型参数的前提下,为各类大语言模型提供外部知识支持,适用于知识密集型问答、事实核查、幻觉抑制等多种场景。
本数据集合包含多跳关联事实、结构化知识及长上下文推理所需的高密度信息条目,适用于大语言模型在知识密集型问答场景中的检索与生成任务;适用条件为需要基于精准事实进行多步推理、处理长文本信息及跨段落或跨文档的关联知识整合;适用范围涵盖开放域通用问答、生物医药等专业领域深度问答、事实一致性核查及幻觉抑制评估等任务,适用对象包括各类基座大语言模型、检索增强生成(RAG)系统及知识增强型自然语言处理应用;通过该数据集合提供的结构化知识内存级表示,可缓解传统RAG因文本token注入导致的知识传递间接性、长上下文或多跳推理不稳定等问题。
提供机构:
浙江省安诊儿医学人工智能科技有限公司
创建时间:
2026-05-26
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集通过自研的知识胶囊提取与外部KV注入算法,将医学文献等公开语料系统性地转化为结构化的知识记忆,以三元组和KV张量形式存储,可直接注入大语言模型的注意力层。它无需更新模型参数即可为大模型提供外部知识支持,适用于知识密集型问答、事实核查、幻觉抑制等场景,能够缓解传统检索增强生成在多跳推理中的不稳定性问题。
以上内容由遇见数据集搜集并总结生成



