PrionNER

github2026-05-19 更新2026-05-21 收录

下载链接：

https://github.com/daotuanan/PrionNER

下载链接

链接失效反馈

官方服务：

资源简介：

PrionNER是一个用于朊病毒病生物医学文献的命名实体识别数据集，包含规范化的训练/测试分割、细粒度和粗粒度注释、同步的BRAT/JSON/CoNLL格式，以及基线数据处理和评估脚本。数据集包括317个文档，其中247个用于训练，70个用于测试，细粒度模式定义了31个标签，粗粒度模式有15个标签。

创建时间：

2026-05-19

原始信息汇总

数据集概述：PrionNER

PrionNER 是一个面向朊病毒疾病生物医学文献的命名实体识别（NER）数据集，随同名论文发布。

核心规模

文档总数：317 篇
训练集：247 篇
测试集：70 篇

标注模式

提供两种粒度的标注：

粒度	标签数量	训练集实体数	测试集实体数
细粒度（fine）	31 个定义标签（实际出现 30 个）	4,655	1,650
粗粒度（coarse）	15 个标签	同上	同上

注意：细粒度中定义的 VPSPr 标签在当前发布的分割中未出现。

特殊标注

非连续实体：训练集 97 个，测试集 34 个

数据格式

每个粒度均提供三种同步格式：

BRAT 格式：原始标注对（.txt + .ann），支持非连续跨度（分号分隔偏移量）
JSON 格式：每篇文档一个 JSON 文件，包含完整文本和实体跨度信息，支持非连续实体
CoNLL 格式：BIO 标记的 token 分类导出（TOKEN<TAB>TAG），每行一个 token，空行分隔句子

另有纯文本格式位于 data/raw_text/ 目录。

目录结构

data/raw_text/：纯文本文件
data/fine/：细粒度标注（含 brat/json/conll 子目录）
data/coarse/：粗粒度标注（结构同 fine）
metadata/：模式文件、BRAT 配置、机器可读统计
code/：转换、评估和基线训练脚本
docs/：数据集卡片、可复现性说明、图表等

许可协议

采用分割许可策略：

code/ 目录下代码：MIT 许可
项目自有的文档、元数据、标注及衍生结构化输出：CC BY 4.0（计划）
基础文章/摘要文本：不重新许可，需遵守第三方权利声明

附加资源

Hugging Face 数据集版本：https://huggingface.co/datasets/dtan/PrionNER

搜集汇总

数据集介绍

构建方式

PrionNER数据集的构建基于对朊病毒疾病生物医学文献的深度解析。团队从相关学术出版物中系统性地筛选出317篇文档，并通过规范的标注流程构建了实体识别基准。数据采用双粒度标注策略，细粒度体系定义了31个标签（实际观测到30个），包含VPSPr等特异性实体类型；粗粒度体系则将标签压缩至15个，以适应不同建模需求。标注格式涵盖BRAT、JSON和CoNLL三种同步视图，确保原始注释、结构化实体信息与序列标注数据的一致性。此外，数据集中还包含了97个训练集和34个测试集中的非连续实体，通过BRAT的分号分隔偏移格式进行精确记录。

使用方法

研究者可根据实际需求选择不同入口路径：若需基于字符偏移的模型输入，推荐使用JSON格式文件；对于序列标注基线任务，CoNLL格式的BIO标签文件可直接用于token分类模型训练；单纯文本分析则可访问raw_text目录。项目提供了完整的代码套件，包括brat_to_json_conll.py格式转换脚本和evaluate_conll_predictions.py评估脚本，支持从原始注释到预测结果评估的全流程操作。数据集的元数据文件（如标签定义和统计数据）进一步辅助用户理解实体类型内涵。建议优先使用标注层而非原始文本进行再分发，以兼顾版权合规与资源复用性。

背景与挑战

背景概述

朊病毒病（Prion Disease）是一类由朊蛋白错误折叠引发的致命性神经退行性疾病，其研究文献的快速增长使得从海量生物医学文本中精准抽取关键实体（如疾病亚型、症状、基因等）成为亟待解决的科学问题。PrionNER数据集由D. Tan等人于近年创建，依托于对317篇（训练集247篇、测试集70篇）朊病毒病相关文献的深度标注，定义了包含31个细粒度标签和15个粗粒度标签的实体体系，累计标注了6,305个实体，其中涵盖97个非连续实体。该数据集以BRAT、JSON和CoNLL三种格式同步发布，为命名实体识别（NER）模型在罕见病领域的适用性评估提供了标准化的基准资源，显著推动了生物医学NLP在特殊疾病领域的应用边界。

当前挑战

PrionNER数据集面临的核心挑战首先源自领域特殊性：朊病毒病文献中实体类型高度专业且存在大量非连续、嵌套及重叠结构（如复合疾病名称跨短语分布），对序列标注模型捕捉长距离依赖与组合语义的能力构成严峻考验。其次，构建过程中面临标注粒度的权衡难题——细粒度方案要求标注者对VPSPr等罕见亚型的边界精准界定，而部分标签在实际语料中鲜有出现（如VPSPr在发布数据中未见示例），导致标签分布极度不均衡；此外，多源文献的格式异构与术语变体（如缩写与全称交替使用）增加了标注一致性的维护成本，需通过粗粒度标签进行语义聚合与消歧。

常用场景

经典使用场景

在朊病毒疾病生物医学文献的信息抽取领域，PrionNER数据集作为首个专注于该领域的命名实体识别基准，广泛应用于训练和评估各类NER模型。研究者可依据其提供的细粒度（31个标签）与粗粒度（15个标签）双层标注体系，构建token级分类模型或基于跨度预测的抽取系统。数据集中包含的97组非连续实体增强了对复杂医学表述的建模能力，使得该数据集成为检验模型处理多层次、非连续实体识别能力的理想试验场。

解决学术问题

PrionNER数据集有效解决了朊病毒疾病文献中缺乏高质量标注语料库的学术困境，填补了罕见病生物医学实体识别领域的空白。其细粒度标注体系覆盖了包括VPSPr在内的30种实体类型，支持对疾病亚型、症状、基因等复杂实体的精确区分，从而推动了信息抽取技术在罕见病研究中的应用。该数据集通过规范化的BIO标注与多格式同步发布，显著降低了学术研究中数据预处理的门槛，促进了命名实体识别方法在生物医学垂直领域的纵深发展。

实际应用

在实际应用中，PrionNER数据集为朊病毒疾病领域的智能文献检索、知识图谱构建及临床决策支持系统提供了关键数据基础。基于该数据集训练的NER模型可自动从海量研究文献中抽取出疾病类型、症状表现、基因突变等关键医学实体，极大提升了科研人员文献综述的效率。此外，其对非连续实体（如跨句子修饰关系）的标注体系，也有效支撑了药物-靶点关联挖掘、流行病学统计等更具复杂性的实际业务场景。

数据集最近研究