mevol/protein_structure_NER_model_v2.1
收藏数据集概述
数据集用途
该数据集用于训练模型:mevol/BiomedNLP-PubMedBERT-ProteinStructure-NER-v2.1
实体类型
数据集中包含20种不同的实体类型:
- "bond_interaction"
- "chemical"
- "complex_assembly"
- "evidence"
- "experimental_method"
- "gene"
- "mutant"
- "oligomeric_state"
- "protein"
- "protein_state"
- "protein_type"
- "ptm"
- "residue_name"
- "residue_name_number"
- "residue_number"
- "residue_range"
- "site"
- "species"
- "structure_element"
- "taxonomy_domain"
数据格式
数据以IOB格式准备,用于训练、开发和测试。此外,还提供JSON、XML和CSV格式的数据。
标注工具
标注使用免费标注工具TeamTat进行,文档以BioC XML格式下载,然后转换为IOB、JSON和CSV格式。
数据统计
以下是每个文件的标注数量和句子数量:
| document ID | 标注数量(BioC XML) | 标注数量(IOB/JSON/CSV) | 句子数量 |
|---|---|---|---|
| PMC4850273 | 1129 | 1129 | 205 |
| PMC4784909 | 868 | 868 | 204 |
| PMC4850288 | 718 | 710 | 146 |
| PMC4887326 | 942 | 942 | 152 |
| PMC4833862 | 1044 | 1044 | 192 |
| PMC4832331 | 739 | 718 | 134 |
| PMC4852598 | 1239 | 1228 | 250 |
| PMC4786784 | 1573 | 1573 | 232 |
| PMC4848090 | 1002 | 1000 | 192 |
| PMC4792962 | 1297 | 1297 | 256 |
| PMC4841544 | 1460 | 1459 | 274 |
| PMC4772114 | 824 | 824 | 165 |
| PMC4872110 | 1283 | 1283 | 250 |
| PMC4848761 | 888 | 884 | 252 |
| PMC4919469 | 1636 | 1624 | 336 |
| PMC4880283 | 783 | 783 | 166 |
| PMC4968113 | 1245 | 1245 | 292 |
| PMC4937829 | 633 | 633 | 181 |
| PMC4854314 | 498 | 488 | 139 |
| PMC4871749 | 411 | 411 | 79 |
| PMC4869123 | 922 | 922 | 195 |
| PMC4888278 | 580 | 580 | 102 |
| PMC4795551 | 1475 | 1475 | 297 |
| PMC4831588 | 1087 | 1070 | 224 |
| PMC4918766 | 1027 | 1027 | 210 |
| PMC4802042 | 1445 | 1445 | 268 |
| PMC4896748 | 2652 | 2638 | 480 |
| PMC4781976 | 115 | 113 | 24 |
| PMC4802085 | 983 | 983 | 193 |
| PMC4887163 | 856 | 856 | 196 |
| total | 31354 | 31252 | 6286 |
数据文件
原始BioC XML文件
原始未标注的XML文件位于目录"raw_BioC_XML"中,每个文件以"unique PubMedCentral ID_raw.xml"命名。
IOB格式标注文件
IOB格式文件位于目录"annotation_IOB"中,包含以下文件:
- all.tsv:所有用于创建模型的句子和标注,共6286个句子
- train.tsv:训练数据子集,共4400个句子
- dev.tsv:开发数据子集,共943个句子
- test.tsv:测试数据子集,共943个句子
总标注数量为31252个。
BioC JSON格式标注文件
BioC格式JSON文件位于目录"annotated_BioC_JSON"中,每个文件以"unique PubMedCentral ID_ann.json"命名。每个文档JSON包含以下键:
- "sourceid":唯一PubMedCentral ID的数字部分
- "text":出版物的完整原始文本
- "denotations":文本的所有标注列表
每个标注是一个字典,包含以下键:
- "span":标注的起始和结束位置
- "begin":标注的起始字符位置
- "end":标注的结束字符位置
- "obj":包含实体类型、参考本体、标注者、时间戳的字符串
- "id":唯一标注ID
BioC XML格式标注文件
BioC格式XML文件位于目录"annotated_BioC_XML"中,每个文件以"unique PubMedCentral ID_ann.xml"命名。关键XML标签包括"passage"和"offset",用于可视化标注和提取训练数据。
CSV格式标注文件
标注和相关句子以制表符分隔的CSV文件形式提供,位于目录"annotation_CSV"中,每个文件以"unique PubMedCentral ID.csv"命名。CSV文件包含以下列:
- "anno_start":标注的起始字符位置
- "anno_end":标注的结束字符位置
- "anno_text":标注的文本
- "entity_type":标注的实体类型
- "sentence":包含标注的句子
- "section":标注所在的出版物部分
JSON格式标注文件
一个组合的JSON文件包含每个出版物的相关句子和标注,位于目录"annotation_JSON"中,文件名为"annotations.json"。JSON文件包含以下键:
- "PMC4850273":唯一PubMedCentral ID
- "annotations":文档的相关标注句子列表,每个字典包含以下子键:
- "sid":唯一句子ID
- "sent":句子文本
- "section":句子所在的出版物部分
- "ner":嵌套列表,每个子列表包含起始字符位置、结束字符位置、标注文本、实体类型



