PDBEurope/protein_structure_NER_independent_val_set

Name: PDBEurope/protein_structure_NER_independent_val_set
Creator: PDBEurope
Published: 2025-03-10 09:52:47
License: 暂无描述

Hugging Face2025-03-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/PDBEurope/protein_structure_NER_independent_val_set

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集主要用于评估两个模型（BiomedNLP-PubMedBERT-ProteinStructure-NER-v2.1和BiomedNLP-PubMedBERT-ProteinStructure-NER-v3.1）是否达到收敛。数据集中包含20种不同的实体类型，如chemical、gene、protein等。标注工作使用TeamTat工具完成，并以BioC XML格式下载，随后转换为IOB、JSON和CSV格式。数据集包含多个文件，每个文件都有唯一的PubMedCentral ID，并且提供了详细的标注信息。数据集的文件格式包括BioC XML、IOB、JSON和CSV，每种格式都提供了不同的标注信息展示方式。

提供机构：

PDBEurope

原始信息汇总

数据集概述

数据集用途

该数据集用于评估以下两个模型以确定是否达到收敛：

https://huggingface.co/PDBEurope/BiomedNLP-PubMedBERT-ProteinStructure-NER-v2.1
https://huggingface.co/PDBEurope/BiomedNLP-PubMedBERT-ProteinStructure-NER-v3.1

实体类型

数据集中包含20种不同的实体类型：

"bond_interaction"
"chemical"
"complex_assembly"
"evidence"
"experimental_method"
"gene"
"mutant"
"oligomeric_state"
"protein"
"protein_state"
"protein_type"
"ptm"
"residue_name"
"residue_name_number"
"residue_number"
"residue_range"
"site"
"species"
"structure_element"
"taxonomy_domain"

数据格式与数量

数据集包含多种格式的文件，包括BioC XML、IOB、JSON和CSV。以下是各文件的注释数量和句子数量：

document ID	number of annotations in BioC XML	number of annotations in IOB/JSON/CSV	number of sentences
PMC5173035	885	885	195
PMC4993997	1052	1051	217
PMC5014086	676	676	136
PMC5063996	1048	1046	243
PMC4980666	669	669	164
PMC4817029	897	897	180
PMC5012862	2203	2202	438
PMC4981400	570	570	121
PMC4806292	760	760	167
PMC5603727	1353	1353	240
total	10113	10109	2101

数据文件目录

Raw BioC XML files: 位于目录 "raw_BioC_XML"，每个文件命名格式为 "unique PubMedCentral ID_raw.xml"。
Annotations in IOB format: 位于目录 "annotation_IOB"，每个文件命名格式为 "unique PubMedCentral ID.tsv"。
Annotations in BioC JSON: 位于目录 "annotated_BioC_JSON"，每个文件命名格式为 "unique PubMedCentral ID_ann.json"。
Annotations in BioC XML: 位于目录 "annotated_BioC_XML"，每个文件命名格式为 "unique PubMedCentral ID_ann.xml"。
Annotations in CSV: 位于目录 "annotation_CSV"，每个文件命名格式为 "unique PubMedCentral ID.csv"。
Annotations in JSON: 位于目录 "annotation_JSON"，包含所有相关句子和注释的文件名为 "annotations.json"。

注释格式

BioC JSON

每个文档的JSON文件包含以下键：

"sourceid": 唯一PubMedCentral ID的数值部分
"text": 出版物的完整原始文本
"denotations": 文本的所有注释列表

每个注释包含以下键：

"span": 注释范围的起始和结束位置
- "begin": 注释的起始字符位置
- "end": 注释的结束字符位置
"obj": 包含实体类型、参考到本体、注释者、时间戳的字符串
"id": 唯一注释ID

BioC XML

每个注释包含以下标签：

"annotation id=": 唯一注释ID
"infon key="type"": 注释的实体类型
"infon key="identifier"": 注释的本体参考
"infon key="annotator"": 注释者
"infon key="updated_at"": 注释创建/更新时间戳
"location": 注释文本范围的起始和结束位置
- "offset": 起始字符位置
- "length": 注释范围的长度

CSV

CSV文件包含以下列：

"anno_start": 注释的起始字符位置
"anno_end": 注释的结束字符位置
"anno_text": 注释覆盖的文本
"entity_type": 注释的实体类型
"sentence": 包含注释的句子文本
"section": 注释所在的出版物部分

JSON

组合JSON文件包含以下键：

"PMC4850273": 唯一PubMedCentral ID
"annotations": 包含相关注释句子的字典列表
- "sid": 唯一句子ID
- "sent": 句子文本
- "section": 句子所在的出版物部分
- "ner": 包含起始字符位置、结束字符位置、注释文本、实体类型的嵌套列表

5,000+

优质数据集

54 个

任务类型

进入经典数据集