five

PDBEurope/protein_structure_NER_model_v1.4|生物学数据集|蛋白质结构分析数据集

收藏
hugging_face2023-11-01 更新2024-03-04 收录
生物学
蛋白质结构分析
下载链接:
https://hf-mirror.com/datasets/PDBEurope/protein_structure_NER_model_v1.4
下载链接
链接失效反馈
资源简介:
该数据集用于训练蛋白质结构命名实体识别(NER)模型,包含19种不同的实体类型,如chemical、gene、protein等。数据以IOB格式准备,并用于训练、开发和测试。此外,数据集还提供了JSON、XML和CSV格式的注释文件。注释是使用TeamTat工具进行的,并转换为多种格式。数据集的文档和注释可以通过BioC XML文件在TeamTat工具中查看。数据集还提供了详细的文件结构和注释格式说明。
提供机构:
PDBEurope
原始信息汇总

数据集概述

数据集信息

  • 许可证: MIT
  • 语言: 英语
  • 标签: 生物学, 蛋白质结构, 标记分类
  • 配置:
    • 配置名称: protein_structure_NER_model_v1.4
    • 数据文件:
      • 训练集: annotation_IOB/train.tsv
      • 开发集: annotation_IOB/dev.tsv
      • 测试集: annotation_IOB/test.tsv

实体类型

数据集中包含19种不同的实体类型:

  • chemical
  • complex_assembly
  • evidence
  • experimental_method
  • gene
  • mutant
  • oligomeric_state
  • protein
  • protein_state
  • protein_type
  • ptm
  • residue_name
  • residue_name_number
  • residue_number
  • residue_range
  • site
  • species
  • structure_element
  • taxonomy_domain

数据格式

数据以IOB格式准备,用于训练、开发和测试。此外,还提供了JSON、XML和CSV格式的数据。

注释信息

注释使用免费的注释工具TeamTat进行,文档以BioC XML格式下载,然后转换为IOB、JSON和CSV格式。

注释数量和句子数量

文档ID BioC XML注释数量 IOB/JSON/CSV注释数量 句子数量
PMC4850273 1121 1121 204
PMC4784909 865 865 204
PMC4850288 716 708 146
PMC4887326 933 933 152
PMC4833862 1044 1044 192
PMC4832331 739 718 134
PMC4852598 1229 1218 250
PMC4786784 1549 1549 232
PMC4848090 987 985 191
PMC4792962 1268 1268 256
PMC4841544 1434 1433 273
PMC4772114 825 825 166
PMC4872110 1276 1276 253
PMC4848761 887 883 252
PMC4919469 1628 1616 336
PMC4880283 771 771 166
PMC4937829 625 625 181
PMC4968113 1238 1238 292
PMC4854314 481 471 139
PMC4871749 383 383 76
总计 19999 19930 4095

数据文件

原始BioC XML文件

  • 目录: raw_BioC_XML
  • 命名规则: unique PubMedCentral ID_raw.xml

注释IOB格式

  • 目录: annotation_IOB
  • 文件:
    • all.tsv: 所有句子和注释,用于创建模型 "PDBEurope/BiomedNLP-PubMedBERT-ProteinStructure-NER-v1.4",包含4095个句子
    • train.tsv: 训练子集,包含2866个句子
    • dev.tsv: 开发子集,包含614个句子
    • test.tsv: 测试子集,包含615个句子
  • 总注释数量: 19930

注释BioC JSON格式

  • 目录: annotated_BioC_JSON
  • 命名规则: unique PubMedCentral ID_ann.json
  • 内容:
    • sourceid: 唯一PubMedCentral ID的数字部分
    • text: 出版物的完整原始文本
    • denotations: 文本的所有注释列表

注释BioC XML格式

  • 目录: annotated_BioC_XML
  • 命名规则: unique PubMedCentral ID_ann.xml
  • 关键标签:
    • passage: 包含注释的文本段落
    • offset: 段落偏移量,用于确定注释的起始和结束位置
    • text: 段落的原始文本

注释CSV格式

  • 目录: annotation_CSV
  • 命名规则: unique PubMedCentral ID.csv
  • 列标签:
    • anno_start: 注释的起始字符位置
    • anno_end: 注释的结束字符位置
    • anno_text: 注释覆盖的文本
    • entity_type: 注释的实体类型
    • sentence: 包含注释的句子文本
    • section: 注释所在的出版物部分

注释JSON格式

  • 目录: annotation_JSON
  • 文件名: annotations.json
  • 内容:
    • PMC4850273: 唯一PubMedCentral ID
    • annotations: 文档的相关注释句子列表,每个句子包含以下子键:
      • sid: 唯一句子ID
      • sent: 句子文本
      • section: 句子所在的出版物部分
      • ner: 嵌套的注释列表,每个子列表包含起始字符位置、结束字符位置、注释文本和实体类型
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过使用免费的标注工具TeamTat进行标注,并将文档以BioC XML格式下载后转换为IOB格式。标注过程涵盖了19种不同的实体类型,包括化学物质、基因、蛋白质等。数据集的构建包括训练、开发和测试三个子集,分别存储在annotation_IOB目录下的train.tsv、dev.tsv和test.tsv文件中。此外,数据集还提供了JSON、XML和CSV格式的文件,便于不同需求下的数据处理和分析。
特点
该数据集的显著特点在于其丰富的实体类型和多样的数据格式。涵盖了从化学物质到生物学物种的19种实体类型,使得该数据集在生物医学领域的命名实体识别任务中具有广泛的应用价值。同时,数据集提供了IOB、JSON、XML和CSV等多种格式,满足了不同研究者和开发者的需求,增强了数据的可访问性和实用性。
使用方法
使用该数据集时,用户可以根据需求选择不同的数据格式进行处理。对于命名实体识别任务,推荐使用IOB格式的数据文件,这些文件已经过预处理,适合直接用于模型训练和评估。对于需要详细标注信息的场景,可以使用BioC JSON或XML格式的文件,这些文件包含了详细的标注信息和上下文文本。此外,CSV格式的文件提供了简洁的标注和句子信息,适合快速数据分析和处理。
背景与挑战
背景概述
在生物信息学领域,蛋白质结构命名实体识别(NER)是一个关键任务,旨在从生物医学文献中提取与蛋白质结构相关的实体。PDBEurope/protein_structure_NER_model_v1.4数据集由PDBEurope团队创建,旨在支持这一领域的研究。该数据集包含了19种不同的实体类型,如化学物质、基因、蛋白质状态等,这些数据以IOB格式进行标注,并用于训练、开发和测试模型。数据集的构建基于PubMedCentral的文献,通过TeamTat工具进行标注,并转换为多种格式,如BioC XML、JSON和CSV,以便于不同研究需求的使用。
当前挑战
尽管PDBEurope/protein_structure_NER_model_v1.4数据集在蛋白质结构NER领域提供了丰富的资源,但其构建过程中仍面临多项挑战。首先,实体类型的多样性和复杂性增加了标注的难度,需要高度专业化的知识。其次,数据格式的多样性虽然增加了数据集的适用性,但也带来了数据一致性和转换过程中的潜在错误。此外,数据集的规模和质量直接影响模型的性能,如何确保标注的准确性和覆盖的全面性是持续面临的挑战。最后,随着生物医学领域的快速发展,数据集需要不断更新以保持其时效性和相关性。
常用场景
经典使用场景
在生物信息学领域,PDBEurope/protein_structure_NER_model_v1.4数据集的经典使用场景主要集中在蛋白质结构命名实体识别(NER)任务中。该数据集通过提供丰富的蛋白质相关实体标注,如化学物质、基因、突变等,为研究人员训练和验证蛋白质结构NER模型提供了宝贵的资源。这些模型在解析生物医学文献中的蛋白质相关信息时表现出色,极大地促进了生物信息学研究的进展。
实际应用
在实际应用中,PDBEurope/protein_structure_NER_model_v1.4数据集被广泛用于生物医学文献的自动化信息提取。例如,制药公司和研究机构利用该数据集训练的模型,快速从海量文献中识别和提取与特定蛋白质相关的信息,从而加速新药研发和疾病机制研究。此外,该数据集还支持生物数据库的自动更新和维护,确保数据的及时性和准确性。
衍生相关工作
基于PDBEurope/protein_structure_NER_model_v1.4数据集,研究人员开发了多种相关的经典工作。例如,一些研究团队利用该数据集训练的模型,进一步开发了蛋白质相互作用网络分析工具,用于揭示蛋白质在细胞中的功能和相互作用。此外,该数据集还启发了基于深度学习的蛋白质结构预测模型的研究,推动了蛋白质组学领域的技术进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录