bigbio/genia_ptm_event_corpus

Name: bigbio/genia_ptm_event_corpus
Creator: bigbio
Published: 2022-12-22 15:44:39
License: 暂无描述

Hugging Face2022-12-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bigbio/genia_ptm_event_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

PTM（翻译后修饰）是蛋白质翻译后的氨基酸修饰，是许多蛋白质生物合成的后处理过程，对于确定蛋白质的功能（如活性状态、定位、周转和与其他生物分子的相互作用）至关重要。尽管已有许多研究针对单个PTM类型进行信息提取，但直到最近才有人尝试在统一框架中同时提取多种PTM类型。

PTM (Post-translational Modification) refers to the covalent modification of amino acid residues in proteins following translation, which is a post-processing step during protein biosynthesis. It is critically important for determining protein functions including activity state, subcellular localization, turnover, and interactions with other biomolecules. While numerous studies have conducted information extraction targeting individual PTM types, only recently have researchers attempted to simultaneously extract multiple PTM types within a unified framework.

提供机构：

bigbio

原始信息汇总

数据集概述

基本信息

语言: 英语
许可证: GENIA_PROJECT_LICENSE
多语言性: 单语种
数据集名称: PTM Events
主页: PTM Events
是否公开: 是
是否可在PubMed上访问: 是

任务类型

命名实体识别 (NAMED_ENTITY_RECOGNITION)
指代消解 (COREFERENCE_RESOLUTION)
事件抽取 (EVENT_EXTRACTION)

数据集描述

PTM Events 数据集专注于蛋白质翻译后修饰（Post-translational modifications, PTM）的研究。PTM是蛋白质翻译后的氨基酸修饰过程，对蛋白质的功能如活性状态、定位、周转及与其他生物分子的相互作用至关重要。该数据集旨在解决统一框架下多种PTM类型同时提取的问题。

引用信息

@inproceedings{ohta-etal-2010-event, title = "Event Extraction for Post-Translational Modifications", author = "Ohta, Tomoko and Pyysalo, Sampo and Miwa, Makoto and Kim, Jin-Dong and Tsujii, Jun{}ichi", booktitle = "Proceedings of the 2010 Workshop on Biomedical Natural Language Processing", month = jul, year = "2010", address = "Uppsala, Sweden", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/W10-1903", pages = "19--27", }

搜集汇总

数据集介绍

构建方式

在生物医学信息抽取领域，GENIA PTM事件语料库的构建聚焦于蛋白质翻译后修饰（PTM）这一关键生物过程。该数据集通过系统化标注英文生物医学文献中的PTM事件，整合了多种修饰类型，如磷酸化、乙酰化等，以支持统一的信息抽取框架。构建过程涉及从PubMed摘要中提取相关文本，并由领域专家进行精细标注，确保实体识别、共指消解和事件抽取任务的数据质量。

使用方法

使用GENIA PTM事件语料库时，研究人员可将其应用于命名实体识别、共指消解和事件抽取等自然语言处理任务。数据集通常以标准格式（如JSON或XML）提供，用户可通过加载标注文件，提取文本中的PTM事件及其关联实体。在模型训练中，建议采用交叉验证或划分训练集与测试集，以评估抽取性能，并利用其结构化标注探索生物医学知识发现的新方法。

背景与挑战

背景概述

蛋白质翻译后修饰（PTM）作为蛋白质生物合成后的关键调控机制，深刻影响着蛋白质的活性、定位及相互作用。为系统解析PTM相关文献中的生物事件，GENIA项目组于2010年发布了PTM Events语料库，由Tomoko Ohta、Sampo Pyysalo等学者共同构建。该语料库旨在统一框架下实现多种PTM类型的事件抽取，填补了当时该领域综合性标注资源的空白，为生物医学文本挖掘提供了结构化数据基础，显著推动了事件抽取与蛋白质功能研究的发展。

当前挑战

PTM Events语料库致力于解决生物医学文本中复杂事件抽取的挑战，包括识别修饰类型、蛋白质实体及其动态关系，其任务涵盖命名实体识别、共指消解与事件抽取。在构建过程中，面临标注一致性与生物学特异性的双重困难：PTM事件的多样性和上下文依赖性要求精细的标注规范，而生物学术语的复杂性则增加了标注的准确性与标准化难度。这些挑战促使研究者开发更鲁棒的模型，以处理生物医学文献中的语义细微差别。

常用场景

经典使用场景

在生物医学信息抽取领域，GENIA PTM事件语料库被广泛用于蛋白质翻译后修饰（PTM）事件的统一提取研究。该数据集通过标注多种PTM类型，如磷酸化、甲基化等，为构建多任务学习框架提供了结构化文本资源。研究者利用其丰富的实体与事件标注，训练模型同时识别不同修饰类型，突破了以往单一类型研究的局限，推动了生物事件抽取技术的系统化发展。

解决学术问题

该数据集解决了生物医学文本挖掘中多类型PTM事件协同抽取的学术难题。传统方法往往针对单一修饰类型，缺乏统一框架，而GENIA PTM语料库通过整合多种修饰事件，支持了跨类型关系建模与核心ference解析研究。这显著提升了蛋白质功能调控网络的自动化构建能力，为系统生物学中的大规模知识发现奠定了数据基础，促进了计算语言学与生物信息学的交叉创新。

实际应用

在实际应用中，GENIA PTM事件语料库支撑了生物医学文献的智能分析工具开发。基于该数据集训练的模型可自动从科研论文中提取蛋白质修饰事件，辅助研究人员快速梳理调控机制，加速药物靶点识别与疾病通路分析。在生物数据库构建、个性化医疗决策支持等领域，此类技术帮助整合碎片化知识，提升生物医学研究的效率与精度。

数据集最近研究