five

PDBEurope/protein_structure_NER_independent_val_set

收藏
Hugging Face2025-03-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PDBEurope/protein_structure_NER_independent_val_set
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集主要用于评估两个模型(BiomedNLP-PubMedBERT-ProteinStructure-NER-v2.1和BiomedNLP-PubMedBERT-ProteinStructure-NER-v3.1)是否达到收敛。数据集中包含20种不同的实体类型,如chemical、gene、protein等。标注工作使用TeamTat工具完成,并以BioC XML格式下载,随后转换为IOB、JSON和CSV格式。数据集包含多个文件,每个文件都有唯一的PubMedCentral ID,并且提供了详细的标注信息。数据集的文件格式包括BioC XML、IOB、JSON和CSV,每种格式都提供了不同的标注信息展示方式。
提供机构:
PDBEurope
原始信息汇总

数据集概述

数据集用途

该数据集用于评估以下两个模型以确定是否达到收敛:

  • https://huggingface.co/PDBEurope/BiomedNLP-PubMedBERT-ProteinStructure-NER-v2.1
  • https://huggingface.co/PDBEurope/BiomedNLP-PubMedBERT-ProteinStructure-NER-v3.1

实体类型

数据集中包含20种不同的实体类型:

  • "bond_interaction"
  • "chemical"
  • "complex_assembly"
  • "evidence"
  • "experimental_method"
  • "gene"
  • "mutant"
  • "oligomeric_state"
  • "protein"
  • "protein_state"
  • "protein_type"
  • "ptm"
  • "residue_name"
  • "residue_name_number"
  • "residue_number"
  • "residue_range"
  • "site"
  • "species"
  • "structure_element"
  • "taxonomy_domain"

数据格式与数量

数据集包含多种格式的文件,包括BioC XML、IOB、JSON和CSV。以下是各文件的注释数量和句子数量:

document ID number of annotations in BioC XML number of annotations in IOB/JSON/CSV number of sentences
PMC5173035 885 885 195
PMC4993997 1052 1051 217
PMC5014086 676 676 136
PMC5063996 1048 1046 243
PMC4980666 669 669 164
PMC4817029 897 897 180
PMC5012862 2203 2202 438
PMC4981400 570 570 121
PMC4806292 760 760 167
PMC5603727 1353 1353 240
total 10113 10109 2101

数据文件目录

  • Raw BioC XML files: 位于目录 "raw_BioC_XML",每个文件命名格式为 "unique PubMedCentral ID_raw.xml"。
  • Annotations in IOB format: 位于目录 "annotation_IOB",每个文件命名格式为 "unique PubMedCentral ID.tsv"。
  • Annotations in BioC JSON: 位于目录 "annotated_BioC_JSON",每个文件命名格式为 "unique PubMedCentral ID_ann.json"。
  • Annotations in BioC XML: 位于目录 "annotated_BioC_XML",每个文件命名格式为 "unique PubMedCentral ID_ann.xml"。
  • Annotations in CSV: 位于目录 "annotation_CSV",每个文件命名格式为 "unique PubMedCentral ID.csv"。
  • Annotations in JSON: 位于目录 "annotation_JSON",包含所有相关句子和注释的文件名为 "annotations.json"。

注释格式

BioC JSON

每个文档的JSON文件包含以下键:

  • "sourceid": 唯一PubMedCentral ID的数值部分
  • "text": 出版物的完整原始文本
  • "denotations": 文本的所有注释列表

每个注释包含以下键:

  • "span": 注释范围的起始和结束位置
    • "begin": 注释的起始字符位置
    • "end": 注释的结束字符位置
  • "obj": 包含实体类型、参考到本体、注释者、时间戳的字符串
  • "id": 唯一注释ID

BioC XML

每个注释包含以下标签:

  • "annotation id=": 唯一注释ID
  • "infon key="type"": 注释的实体类型
  • "infon key="identifier"": 注释的本体参考
  • "infon key="annotator"": 注释者
  • "infon key="updated_at"": 注释创建/更新时间戳
  • "location": 注释文本范围的起始和结束位置
    • "offset": 起始字符位置
    • "length": 注释范围的长度

CSV

CSV文件包含以下列:

  • "anno_start": 注释的起始字符位置
  • "anno_end": 注释的结束字符位置
  • "anno_text": 注释覆盖的文本
  • "entity_type": 注释的实体类型
  • "sentence": 包含注释的句子文本
  • "section": 注释所在的出版物部分

JSON

组合JSON文件包含以下键:

  • "PMC4850273": 唯一PubMedCentral ID
  • "annotations": 包含相关注释句子的字典列表
    • "sid": 唯一句子ID
    • "sent": 句子文本
    • "section": 句子所在的出版物部分
    • "ner": 包含起始字符位置、结束字符位置、注释文本、实体类型的嵌套列表
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作