mevol/protein_structure_NER_model_v3.1
收藏Hugging Face2023-11-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mevol/protein_structure_NER_model_v3.1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于训练名为BiomedNLP-PubMedBERT-ProteinStructure-NER-v3.1的模型,包含20种不同的实体类型,如chemical, gene, protein等。数据以IOB格式准备,并提供了JSON、XML和CSV格式的额外数据。注释工作使用了TeamTat工具,并提供了详细的注释数量和句子数量统计。此外,README还详细描述了每种数据格式的结构和内容,包括BioC XML、IOB格式、BioC JSON、BioC XML、CSV和JSON格式的具体细节。
提供机构:
mevol
原始信息汇总
数据集概述
数据集用途
该数据集用于训练模型:mevol/BiomedNLP-PubMedBERT-ProteinStructure-NER-v3.1。
实体类型
数据集中包含20种不同的实体类型:
- "bond_interaction"
- "chemical"
- "complex_assembly"
- "evidence"
- "experimental_method"
- "gene"
- "mutant"
- "oligomeric_state"
- "protein"
- "protein_state"
- "protein_type"
- "ptm"
- "residue_name"
- "residue_name_number"
- "residue_number"
- "residue_range"
- "site"
- "species"
- "structure_element"
- "taxonomy_domain"
数据格式
数据以IOB格式准备,用于训练、开发和测试。此外,还提供了JSON、XML和CSV格式的数据。
数据文件
数据文件分为训练集、开发集和测试集,路径如下:
- 训练集:
annotation_IOB/train.tsv - 开发集:
annotation_IOB/dev.tsv - 测试集:
annotation_IOB/test.tsv
标注工具
标注工作使用免费的标注工具TeamTat(https://www.teamtat.org/)进行,文档以BioC XML格式下载,然后转换为IOB、JSON和CSV格式。
标注数量
每个文件的标注数量和句子数量如下:
| document ID | 标注数量(BioC XML) | 标注数量(IOB/JSON/CSV) | 句子数量 |
|---|---|---|---|
| PMC4850273 | 1129 | 1129 | 205 |
| PMC4784909 | 868 | 868 | 204 |
| PMC4850288 | 717 | 709 | 146 |
| PMC4887326 | 942 | 942 | 152 |
| PMC4833862 | 1044 | 1044 | 192 |
| PMC4832331 | 739 | 718 | 134 |
| PMC4852598 | 1239 | 1228 | 250 |
| PMC4786784 | 1573 | 1573 | 232 |
| PMC4848090 | 1000 | 998 | 192 |
| PMC4792962 | 1297 | 1297 | 256 |
| PMC4841544 | 1460 | 1459 | 274 |
| PMC4772114 | 824 | 824 | 165 |
| PMC4872110 | 1283 | 1283 | 250 |
| PMC4848761 | 888 | 884 | 252 |
| PMC4919469 | 1636 | 1624 | 336 |
| PMC4880283 | 783 | 783 | 166 |
| PMC4968113 | 1245 | 1245 | 292 |
| PMC4937829 | 633 | 633 | 181 |
| PMC4854314 | 498 | 488 | 139 |
| PMC4871749 | 411 | 411 | 79 |
| PMC4869123 | 922 | 922 | 195 |
| PMC4888278 | 580 | 580 | 102 |
| PMC4795551 | 1475 | 1475 | 297 |
| PMC4831588 | 1087 | 1070 | 224 |
| PMC4918766 | 1027 | 1027 | 210 |
| PMC4802042 | 1441 | 1441 | 264 |
| PMC4896748 | 2652 | 2638 | 480 |
| PMC4781976 | 115 | 113 | 24 |
| PMC4802085 | 983 | 983 | 193 |
| PMC4887163 | 856 | 856 | 196 |
| PMC4918759 | 803 | 803 | 175 |
| PMC4855620 | 563 | 563 | 122 |
| PMC4822050 | 1521 | 1521 | 249 |
| PMC4822561 | 367 | 366 | 84 |
| PMC4885502 | 577 | 577 | 97 |
| PMC4746701 | 1130 | 1130 | 245 |
| PMC4820378 | 733 | 733 | 170 |
| PMC4773095 | 1323 | 1323 | 252 |
| PMC4857006 | 1358 | 1358 | 249 |
| PMC4774019 | 532 | 530 | 117 |
| total | 40254 | 40149 | 8042 |
数据文件目录
- 原始BioC XML文件:
raw_BioC_XML - IOB格式文件:
annotation_IOB - BioC JSON文件:
annotated_BioC_JSON - BioC XML文件:
annotated_BioC_XML - CSV文件:
annotation_CSV - JSON文件:
annotation_JSON
文件命名规则
- 原始BioC XML文件:
"unique PubMedCentral ID"_raw.xml - BioC JSON文件:
"unique PubMedCentral ID"_ann.json - BioC XML文件:
"unique PubMedCentral ID_ann.xml - CSV文件:
"unique PubMedCentral ID".csv - JSON文件:
annotations.json
文件内容
-
IOB格式文件:
all.tsv:包含所有用于创建模型的句子和标注,共8042个句子。train.tsv:训练数据子集,共5629个句子。dev.tsv:开发数据子集,共1206个句子。test.tsv:测试数据子集,共1207个句子。- 总标注数量:40149
-
BioC JSON文件:
- 每个文档JSON包含以下键:
"sourceid":PubMedCentral ID的数值部分。"text":出版物的完整原始文本。"denotations":文本的所有标注列表。
- 每个标注是一个字典,包含以下键:
"span":标注的起始和结束位置。"obj":包含实体类型、参考本体、标注者、时间戳的字符串。"id":唯一标注ID。
- 每个文档JSON包含以下键:
-
BioC XML文件:
- 关键XML标签:
"passage"和"offset"。 - 每个标注的XML标签:
"annotation id=":唯一ID。"infon key="type"":实体类型。"infon key="identifier"":参考本体。"infon key="annotator"":标注者。"infon key="updated_at"":时间戳。"location":起始和结束字符位置。
- 关键XML标签:
-
CSV文件:
- 列标签:
"anno_start":标注起始位置。"anno_end":标注结束位置。"anno_text":标注文本。"entity_type":实体类型。"sentence":句子文本。"section":出版物部分。
- 列标签:
-
JSON文件:
- 包含每个出版物的相关句子和关联标注的组合JSON文件。
- 键:
"PMC4850273":PubMedCentral ID。"annotations":相关标注的句子列表。
- 每个标注包含以下子键:
"sid":唯一句子ID。"sent":句子文本。"section":出版物部分。"ner":嵌套列表,包含起始位置、结束位置、标注文本、实体类型。



