PDBEurope/protein_structure_NER_model_v3.1
收藏Hugging Face2025-03-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PDBEurope/protein_structure_NER_model_v3.1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于训练一个名为PDBEurope/BiomedNLP-PubMedBERT-ProteinStructure-NER-v3.1的模型,涉及蛋白质结构的命名实体识别(NER)。数据集中包含20种不同的实体类型,如chemical, gene, protein等。数据集以IOB格式准备,并提供了JSON、XML和CSV格式的附加数据。注释是使用TeamTat工具进行的,并转换为多种格式。README还提供了每个文件的注释数量和句子数量的详细统计信息,并描述了不同格式的文件结构和内容。
提供机构:
PDBEurope
原始信息汇总
数据集概述
该数据集用于训练模型:PDBEurope/BiomedNLP-PubMedBERT-ProteinStructure-NER-v3.1。
实体类型
数据集中包含20种不同的实体类型:
- "bond_interaction"
- "chemical"
- "complex_assembly"
- "evidence"
- "experimental_method"
- "gene"
- "mutant"
- "oligomeric_state"
- "protein"
- "protein_state"
- "protein_type"
- "ptm"
- "residue_name"
- "residue_name_number"
- "residue_number"
- "residue_range"
- "site"
- "species"
- "structure_element"
- "taxonomy_domain"
数据格式
数据以IOB格式准备,用于训练、开发和测试。此外,还提供了JSON、XML和CSV格式的数据。
数据文件
配置文件protein_structure_NER_model_v3.1包含以下数据文件:
- 训练集:
annotation_IOB/train.tsv - 开发集:
annotation_IOB/dev.tsv - 测试集:
annotation_IOB/test.tsv
标注工具
标注工作使用免费的标注工具TeamTat(https://www.teamtat.org/)进行,文档以BioC XML格式下载,然后转换为IOB、JSON和CSV格式。
标注数量和句子数量
以下是每个文件的标注数量和句子数量:
| document ID | 标注数量(BioC XML) | 标注数量(IOB/JSON/CSV) | 句子数量 |
|---|---|---|---|
| PMC4850273 | 1129 | 1129 | 205 |
| PMC4784909 | 868 | 868 | 204 |
| PMC4850288 | 717 | 709 | 146 |
| PMC4887326 | 942 | 942 | 152 |
| PMC4833862 | 1044 | 1044 | 192 |
| PMC4832331 | 739 | 718 | 134 |
| PMC4852598 | 1239 | 1228 | 250 |
| PMC4786784 | 1573 | 1573 | 232 |
| PMC4848090 | 1000 | 998 | 192 |
| PMC4792962 | 1297 | 1297 | 256 |
| PMC4841544 | 1460 | 1459 | 274 |
| PMC4772114 | 824 | 824 | 165 |
| PMC4872110 | 1283 | 1283 | 250 |
| PMC4848761 | 888 | 884 | 252 |
| PMC4919469 | 1636 | 1624 | 336 |
| PMC4880283 | 783 | 783 | 166 |
| PMC4968113 | 1245 | 1245 | 292 |
| PMC4937829 | 633 | 633 | 181 |
| PMC4854314 | 498 | 488 | 139 |
| PMC4871749 | 411 | 411 | 79 |
| PMC4869123 | 922 | 922 | 195 |
| PMC4888278 | 580 | 580 | 102 |
| PMC4795551 | 1475 | 1475 | 297 |
| PMC4831588 | 1087 | 1070 | 224 |
| PMC4918766 | 1027 | 1027 | 210 |
| PMC4802042 | 1441 | 1441 | 264 |
| PMC4896748 | 2652 | 2638 | 480 |
| PMC4781976 | 115 | 113 | 24 |
| PMC4802085 | 983 | 983 | 193 |
| PMC4887163 | 856 | 856 | 196 |
| PMC4918759 | 803 | 803 | 175 |
| PMC4855620 | 563 | 563 | 122 |
| PMC4822050 | 1521 | 1521 | 249 |
| PMC4822561 | 367 | 366 | 84 |
| PMC4885502 | 577 | 577 | 97 |
| PMC4746701 | 1130 | 1130 | 245 |
| PMC4820378 | 733 | 733 | 170 |
| PMC4773095 | 1323 | 1323 | 252 |
| PMC4857006 | 1358 | 1358 | 249 |
| PMC4774019 | 532 | 530 | 117 |
| total | 40254 | 40149 | 8042 |
数据文件目录
- 原始BioC XML文件:位于
raw_BioC_XML目录,每个文件命名格式为"unique PubMedCentral ID"_raw.xml。 - IOB格式文件:位于
annotation_IOB目录,包含以下文件:all.tsv:所有用于创建模型的句子和标注,共8042个句子。train.tsv:训练数据子集,共5629个句子。dev.tsv:开发数据子集,共1206个句子。test.tsv:测试数据子集,共1207个句子。
- BioC JSON文件:位于
annotated_BioC_JSON目录,每个文件命名格式为"unique PubMedCentral ID"_ann.json。 - BioC XML文件:位于
annotated_BioC_XML目录,每个文件命名格式为"unique PubMedCentral ID_ann.xml。 - CSV文件:位于
annotation_CSV目录,每个文件命名格式为"unique PubMedCentral ID".csv。 - JSON文件:位于
annotation_JSON目录,文件名为annotations.json。
标注格式
- BioC JSON:每个文档JSON包含以下键:
"sourceid":PubMedCentral ID的数值部分。"text":出版物的完整原始文本。"denotations":文本的所有标注列表。
- BioC XML:每个标注在XML文件中标记如下:
"annotation id=":标注的唯一ID。"infon key="type"":标注的实体类型。"infon key="identifier"":标注的参考本体。"infon key="annotator"":标注者。"infon key="updated_at"":标注创建/更新时间戳。"location":标注文本的起始和结束字符位置。
- CSV:CSV文件包含以下列:
"anno_start":标注的起始字符位置。"anno_end":标注的结束字符位置。"anno_text":标注覆盖的文本。"entity_type":标注的实体类型。"sentence":包含标注的句子文本。"section":标注所在的出版物部分。
- JSON:组合JSON文件包含以下键:
"PMC4850273":出版物的唯一PubMedCentral ID。"annotations":文档的相关标注句子列表,每个句子包含以下子键:"sid":唯一句子ID。"sent":句子文本。"section":句子所在的出版物部分。"ner":嵌套的标注列表,每个子列表包含起始字符位置、结束字符位置、标注文本和实体类型。



