PDBEurope/protein_structure_NER_model_v1.2
收藏Hugging Face2025-03-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PDBEurope/protein_structure_NER_model_v1.2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于训练蛋白质结构命名实体识别(NER)模型,包含19种不同的实体类型,如化学物质、基因、蛋白质等。数据以IOB格式准备,并用于训练、开发和测试。此外,还提供了JSON、XML和CSV格式的数据。数据集中的文档和注释是通过TeamTat工具进行标注的,并以BioC XML格式下载后转换为其他格式。README还提供了每种格式的详细描述和示例,包括文件结构、标签和键值对的含义。
提供机构:
PDBEurope
原始信息汇总
数据集概述
数据集信息
- 许可证: MIT
- 语言: 英语
- 标签: 生物学, 蛋白质结构, 标记分类
- 配置:
- 配置名称: protein_structure_NER_model_v1.2
- 数据文件:
- 训练集:
annotation_IOB/train.tsv - 开发集:
annotation_IOB/dev.tsv - 测试集:
annotation_IOB/test.tsv
- 训练集:
实体类型
数据集中包含19种不同的实体类型:
- chemical
- complex_assembly
- evidence
- experimental_method
- gene
- mutant
- oligomeric_state
- protein
- protein_state
- protein_type
- ptm
- residue_name
- residue_name_number
- residue_number
- residue_range
- site
- species
- structure_element
- taxonomy_domain
数据格式
数据以IOB格式准备,用于训练、开发和测试。此外,还提供JSON、XML和CSV格式。
标注信息
标注使用免费标注工具TeamTat进行,文档以BioC XML格式下载,然后转换为IOB、JSON和CSV格式。
标注数量和句子数量
以下是每个文件的标注数量和句子数量:
| 文档ID | BioC XML标注数量 | IOB/JSON/CSV标注数量 | 句子数量 |
|---|---|---|---|
| PMC4850273 | 1121 | 1121 | 204 |
| PMC4784909 | 865 | 865 | 204 |
| PMC4850288 | 716 | 708 | 146 |
| PMC4887326 | 933 | 933 | 152 |
| PMC4833862 | 1044 | 1044 | 192 |
| PMC4832331 | 739 | 718 | 134 |
| PMC4852598 | 1229 | 1218 | 250 |
| PMC4786784 | 1549 | 1549 | 232 |
| PMC4848090 | 987 | 985 | 191 |
| PMC4792962 | 1268 | 1268 | 256 |
| 总计 | 10451 | 10409 | 1961 |
数据文件
- 原始BioC XML文件: 位于
raw_BioC_XML目录,每个文件以"unique PubMedCentral ID_raw.xml"命名。 - IOB格式标注文件: 位于
annotation_IOB目录,包括:all.tsv: 所有用于创建模型的句子和标注,共1961个句子。train.tsv: 训练集,共1372个句子。dev.tsv: 开发集,共294个句子。test.tsv: 测试集,共295个句子。
- BioC JSON格式标注文件: 位于
annotated_BioC_JSON目录,每个文件以"unique PubMedCentral ID_ann.json"命名。 - BioC XML格式标注文件: 位于
annotated_BioC_XML目录,每个文件以"unique PubMedCentral ID_ann.xml"命名。 - CSV格式标注文件: 位于
annotation_CSV目录,每个文件以"unique PubMedCentral ID.csv"命名。 - JSON格式标注文件: 位于
annotation_JSON目录,文件名为annotations.json。



