PDBEurope/protein_structure_NER_independent_val_set
收藏Hugging Face2025-03-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PDBEurope/protein_structure_NER_independent_val_set
下载链接
链接失效反馈官方服务:
资源简介:
该数据集主要用于评估两个模型(BiomedNLP-PubMedBERT-ProteinStructure-NER-v2.1和BiomedNLP-PubMedBERT-ProteinStructure-NER-v3.1)是否达到收敛。数据集中包含20种不同的实体类型,如chemical、gene、protein等。标注工作使用TeamTat工具完成,并以BioC XML格式下载,随后转换为IOB、JSON和CSV格式。数据集包含多个文件,每个文件都有唯一的PubMedCentral ID,并且提供了详细的标注信息。数据集的文件格式包括BioC XML、IOB、JSON和CSV,每种格式都提供了不同的标注信息展示方式。
提供机构:
PDBEurope
原始信息汇总
数据集概述
数据集用途
该数据集用于评估以下两个模型以确定是否达到收敛:
- https://huggingface.co/PDBEurope/BiomedNLP-PubMedBERT-ProteinStructure-NER-v2.1
- https://huggingface.co/PDBEurope/BiomedNLP-PubMedBERT-ProteinStructure-NER-v3.1
实体类型
数据集中包含20种不同的实体类型:
- "bond_interaction"
- "chemical"
- "complex_assembly"
- "evidence"
- "experimental_method"
- "gene"
- "mutant"
- "oligomeric_state"
- "protein"
- "protein_state"
- "protein_type"
- "ptm"
- "residue_name"
- "residue_name_number"
- "residue_number"
- "residue_range"
- "site"
- "species"
- "structure_element"
- "taxonomy_domain"
数据格式与数量
数据集包含多种格式的文件,包括BioC XML、IOB、JSON和CSV。以下是各文件的注释数量和句子数量:
| document ID | number of annotations in BioC XML | number of annotations in IOB/JSON/CSV | number of sentences |
|---|---|---|---|
| PMC5173035 | 885 | 885 | 195 |
| PMC4993997 | 1052 | 1051 | 217 |
| PMC5014086 | 676 | 676 | 136 |
| PMC5063996 | 1048 | 1046 | 243 |
| PMC4980666 | 669 | 669 | 164 |
| PMC4817029 | 897 | 897 | 180 |
| PMC5012862 | 2203 | 2202 | 438 |
| PMC4981400 | 570 | 570 | 121 |
| PMC4806292 | 760 | 760 | 167 |
| PMC5603727 | 1353 | 1353 | 240 |
| total | 10113 | 10109 | 2101 |
数据文件目录
- Raw BioC XML files: 位于目录 "raw_BioC_XML",每个文件命名格式为 "unique PubMedCentral ID_raw.xml"。
- Annotations in IOB format: 位于目录 "annotation_IOB",每个文件命名格式为 "unique PubMedCentral ID.tsv"。
- Annotations in BioC JSON: 位于目录 "annotated_BioC_JSON",每个文件命名格式为 "unique PubMedCentral ID_ann.json"。
- Annotations in BioC XML: 位于目录 "annotated_BioC_XML",每个文件命名格式为 "unique PubMedCentral ID_ann.xml"。
- Annotations in CSV: 位于目录 "annotation_CSV",每个文件命名格式为 "unique PubMedCentral ID.csv"。
- Annotations in JSON: 位于目录 "annotation_JSON",包含所有相关句子和注释的文件名为 "annotations.json"。
注释格式
BioC JSON
每个文档的JSON文件包含以下键:
- "sourceid": 唯一PubMedCentral ID的数值部分
- "text": 出版物的完整原始文本
- "denotations": 文本的所有注释列表
每个注释包含以下键:
- "span": 注释范围的起始和结束位置
- "begin": 注释的起始字符位置
- "end": 注释的结束字符位置
- "obj": 包含实体类型、参考到本体、注释者、时间戳的字符串
- "id": 唯一注释ID
BioC XML
每个注释包含以下标签:
- "annotation id=": 唯一注释ID
- "infon key="type"": 注释的实体类型
- "infon key="identifier"": 注释的本体参考
- "infon key="annotator"": 注释者
- "infon key="updated_at"": 注释创建/更新时间戳
- "location": 注释文本范围的起始和结束位置
- "offset": 起始字符位置
- "length": 注释范围的长度
CSV
CSV文件包含以下列:
- "anno_start": 注释的起始字符位置
- "anno_end": 注释的结束字符位置
- "anno_text": 注释覆盖的文本
- "entity_type": 注释的实体类型
- "sentence": 包含注释的句子文本
- "section": 注释所在的出版物部分
JSON
组合JSON文件包含以下键:
- "PMC4850273": 唯一PubMedCentral ID
- "annotations": 包含相关注释句子的字典列表
- "sid": 唯一句子ID
- "sent": 句子文本
- "section": 句子所在的出版物部分
- "ner": 包含起始字符位置、结束字符位置、注释文本、实体类型的嵌套列表



