PDBEurope/protein_structure_NER_model_v1.4
收藏Hugging Face2025-03-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PDBEurope/protein_structure_NER_model_v1.4
下载链接
链接失效反馈资源简介:
该数据集用于训练蛋白质结构命名实体识别(NER)模型,包含19种不同的实体类型,如chemical、gene、protein等。数据以IOB格式准备,并用于训练、开发和测试。此外,数据集还提供了JSON、XML和CSV格式的注释文件。注释是使用TeamTat工具进行的,并转换为多种格式。数据集的文档和注释可以通过BioC XML文件在TeamTat工具中查看。数据集还提供了详细的文件结构和注释格式说明。
This dataset is intended for training protein structure named entity recognition (NER) models, which encompasses 19 distinct entity types including chemical, gene, protein and others. The data is prepared in IOB format and utilized for model training, validation and testing. Furthermore, the dataset provides annotation files in JSON, XML and CSV formats. The annotations were generated using the TeamTat tool and subsequently converted into multiple file formats. The dataset's documentation and annotations can be viewed within the TeamTat tool via BioC XML files. Detailed instructions for the file structure and annotation formats are also provided with the dataset.
提供机构:
PDBEurope
原始信息汇总
数据集概述
数据集信息
- 许可证: MIT
- 语言: 英语
- 标签: 生物学, 蛋白质结构, 标记分类
- 配置:
- 配置名称: protein_structure_NER_model_v1.4
- 数据文件:
- 训练集:
annotation_IOB/train.tsv - 开发集:
annotation_IOB/dev.tsv - 测试集:
annotation_IOB/test.tsv
- 训练集:
实体类型
数据集中包含19种不同的实体类型:
- chemical
- complex_assembly
- evidence
- experimental_method
- gene
- mutant
- oligomeric_state
- protein
- protein_state
- protein_type
- ptm
- residue_name
- residue_name_number
- residue_number
- residue_range
- site
- species
- structure_element
- taxonomy_domain
数据格式
数据以IOB格式准备,用于训练、开发和测试。此外,还提供了JSON、XML和CSV格式的数据。
注释信息
注释使用免费的注释工具TeamTat进行,文档以BioC XML格式下载,然后转换为IOB、JSON和CSV格式。
注释数量和句子数量
| 文档ID | BioC XML注释数量 | IOB/JSON/CSV注释数量 | 句子数量 |
|---|---|---|---|
| PMC4850273 | 1121 | 1121 | 204 |
| PMC4784909 | 865 | 865 | 204 |
| PMC4850288 | 716 | 708 | 146 |
| PMC4887326 | 933 | 933 | 152 |
| PMC4833862 | 1044 | 1044 | 192 |
| PMC4832331 | 739 | 718 | 134 |
| PMC4852598 | 1229 | 1218 | 250 |
| PMC4786784 | 1549 | 1549 | 232 |
| PMC4848090 | 987 | 985 | 191 |
| PMC4792962 | 1268 | 1268 | 256 |
| PMC4841544 | 1434 | 1433 | 273 |
| PMC4772114 | 825 | 825 | 166 |
| PMC4872110 | 1276 | 1276 | 253 |
| PMC4848761 | 887 | 883 | 252 |
| PMC4919469 | 1628 | 1616 | 336 |
| PMC4880283 | 771 | 771 | 166 |
| PMC4937829 | 625 | 625 | 181 |
| PMC4968113 | 1238 | 1238 | 292 |
| PMC4854314 | 481 | 471 | 139 |
| PMC4871749 | 383 | 383 | 76 |
| 总计 | 19999 | 19930 | 4095 |
数据文件
原始BioC XML文件
- 目录:
raw_BioC_XML - 命名规则:
unique PubMedCentral ID_raw.xml
注释IOB格式
- 目录:
annotation_IOB - 文件:
all.tsv: 所有句子和注释,用于创建模型 "PDBEurope/BiomedNLP-PubMedBERT-ProteinStructure-NER-v1.4",包含4095个句子train.tsv: 训练子集,包含2866个句子dev.tsv: 开发子集,包含614个句子test.tsv: 测试子集,包含615个句子
- 总注释数量: 19930
注释BioC JSON格式
- 目录:
annotated_BioC_JSON - 命名规则:
unique PubMedCentral ID_ann.json - 内容:
sourceid: 唯一PubMedCentral ID的数字部分text: 出版物的完整原始文本denotations: 文本的所有注释列表
注释BioC XML格式
- 目录:
annotated_BioC_XML - 命名规则:
unique PubMedCentral ID_ann.xml - 关键标签:
passage: 包含注释的文本段落offset: 段落偏移量,用于确定注释的起始和结束位置text: 段落的原始文本
注释CSV格式
- 目录:
annotation_CSV - 命名规则:
unique PubMedCentral ID.csv - 列标签:
anno_start: 注释的起始字符位置anno_end: 注释的结束字符位置anno_text: 注释覆盖的文本entity_type: 注释的实体类型sentence: 包含注释的句子文本section: 注释所在的出版物部分
注释JSON格式
- 目录:
annotation_JSON - 文件名:
annotations.json - 内容:
PMC4850273: 唯一PubMedCentral IDannotations: 文档的相关注释句子列表,每个句子包含以下子键:sid: 唯一句子IDsent: 句子文本section: 句子所在的出版物部分ner: 嵌套的注释列表,每个子列表包含起始字符位置、结束字符位置、注释文本和实体类型
AI搜集汇总
数据集介绍

构建方式
该数据集通过使用免费的标注工具TeamTat进行标注,并将文档以BioC XML格式下载后转换为IOB格式。标注过程涵盖了19种不同的实体类型,包括化学物质、基因、蛋白质等。数据集的构建包括训练、开发和测试三个子集,分别存储在annotation_IOB目录下的train.tsv、dev.tsv和test.tsv文件中。此外,数据集还提供了JSON、XML和CSV格式的文件,便于不同需求下的数据处理和分析。
特点
该数据集的显著特点在于其丰富的实体类型和多样的数据格式。涵盖了从化学物质到生物学物种的19种实体类型,使得该数据集在生物医学领域的命名实体识别任务中具有广泛的应用价值。同时,数据集提供了IOB、JSON、XML和CSV等多种格式,满足了不同研究者和开发者的需求,增强了数据的可访问性和实用性。
使用方法
使用该数据集时,用户可以根据需求选择不同的数据格式进行处理。对于命名实体识别任务,推荐使用IOB格式的数据文件,这些文件已经过预处理,适合直接用于模型训练和评估。对于需要详细标注信息的场景,可以使用BioC JSON或XML格式的文件,这些文件包含了详细的标注信息和上下文文本。此外,CSV格式的文件提供了简洁的标注和句子信息,适合快速数据分析和处理。
背景与挑战
背景概述
在生物信息学领域,蛋白质结构命名实体识别(NER)是一个关键任务,旨在从生物医学文献中提取与蛋白质结构相关的实体。PDBEurope/protein_structure_NER_model_v1.4数据集由PDBEurope团队创建,旨在支持这一领域的研究。该数据集包含了19种不同的实体类型,如化学物质、基因、蛋白质状态等,这些数据以IOB格式进行标注,并用于训练、开发和测试模型。数据集的构建基于PubMedCentral的文献,通过TeamTat工具进行标注,并转换为多种格式,如BioC XML、JSON和CSV,以便于不同研究需求的使用。
当前挑战
尽管PDBEurope/protein_structure_NER_model_v1.4数据集在蛋白质结构NER领域提供了丰富的资源,但其构建过程中仍面临多项挑战。首先,实体类型的多样性和复杂性增加了标注的难度,需要高度专业化的知识。其次,数据格式的多样性虽然增加了数据集的适用性,但也带来了数据一致性和转换过程中的潜在错误。此外,数据集的规模和质量直接影响模型的性能,如何确保标注的准确性和覆盖的全面性是持续面临的挑战。最后,随着生物医学领域的快速发展,数据集需要不断更新以保持其时效性和相关性。
常用场景
经典使用场景
在生物信息学领域,PDBEurope/protein_structure_NER_model_v1.4数据集的经典使用场景主要集中在蛋白质结构命名实体识别(NER)任务中。该数据集通过提供丰富的蛋白质相关实体标注,如化学物质、基因、突变等,为研究人员训练和验证蛋白质结构NER模型提供了宝贵的资源。这些模型在解析生物医学文献中的蛋白质相关信息时表现出色,极大地促进了生物信息学研究的进展。
实际应用
在实际应用中,PDBEurope/protein_structure_NER_model_v1.4数据集被广泛用于生物医学文献的自动化信息提取。例如,制药公司和研究机构利用该数据集训练的模型,快速从海量文献中识别和提取与特定蛋白质相关的信息,从而加速新药研发和疾病机制研究。此外,该数据集还支持生物数据库的自动更新和维护,确保数据的及时性和准确性。
衍生相关工作
基于PDBEurope/protein_structure_NER_model_v1.4数据集,研究人员开发了多种相关的经典工作。例如,一些研究团队利用该数据集训练的模型,进一步开发了蛋白质相互作用网络分析工具,用于揭示蛋白质在细胞中的功能和相互作用。此外,该数据集还启发了基于深度学习的蛋白质结构预测模型的研究,推动了蛋白质组学领域的技术进步。
以上内容由AI搜集并总结生成



