bigbio/bionlp_st_2011_ge

Name: bigbio/bionlp_st_2011_ge
Creator: bigbio
Published: 2022-12-22 15:43:51
License: 暂无描述

Hugging Face2022-12-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bigbio/bionlp_st_2011_ge

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - en bigbio_language: - English license: cc-by-3.0 multilinguality: monolingual bigbio_license_shortname: CC_BY_3p0 pretty_name: BioNLP 2011 GE homepage: https://sites.google.com/site/bionlpst/bionlp-shared-task-2011/genia-event-extraction-genia bigbio_pubmed: True bigbio_public: True bigbio_tasks: - EVENT_EXTRACTION - NAMED_ENTITY_RECOGNITION - COREFERENCE_RESOLUTION --- # Dataset Card for BioNLP 2011 GE ## Dataset Description - **Homepage:** https://sites.google.com/site/bionlpst/bionlp-shared-task-2011/genia-event-extraction-genia - **Pubmed:** True - **Public:** True - **Tasks:** EE,NER,COREF The BioNLP-ST GE task has been promoting development of fine-grained information extraction (IE) from biomedical documents, since 2009. Particularly, it has focused on the domain of NFkB as a model domain of Biomedical IE. The GENIA task aims at extracting events occurring upon genes or gene products, which are typed as "Protein" without differentiating genes from gene products. Other types of physical entities, e.g. cells, cell components, are not differentiated from each other, and their type is given as "Entity". ## Citation Information ``` @inproceedings{10.5555/2107691.2107693, author = {Kim, Jin-Dong and Wang, Yue and Takagi, Toshihisa and Yonezawa, Akinori}, title = {Overview of Genia Event Task in BioNLP Shared Task 2011}, year = {2011}, isbn = {9781937284091}, publisher = {Association for Computational Linguistics}, address = {USA}, abstract = {The Genia event task, a bio-molecular event extraction task, is arranged as one of the main tasks of BioNLP Shared Task 2011. As its second time to be arranged for community-wide focused efforts, it aimed to measure the advance of the community since 2009, and to evaluate generalization of the technology to full text papers. After a 3-month system development period, 15 teams submitted their performance results on test cases. The results show the community has made a significant advancement in terms of both performance improvement and generalization.}, booktitle = {Proceedings of the BioNLP Shared Task 2011 Workshop}, pages = {7–15}, numpages = {9}, location = {Portland, Oregon}, series = {BioNLP Shared Task '11} } ```

language: - 英语 bigbio_language: - 英语 license: 知识共享署名3.0（CC BY 3.0） multilinguality: 单语 bigbio_license_shortname: CC_BY_3p0 pretty_name: BioNLP 2011 GE homepage: https://sites.google.com/site/bionlpst/bionlp-shared-task-2011/genia-event-extraction-genia bigbio_pubmed: 是 bigbio_public: 是 bigbio_tasks: - 事件抽取（EVENT_EXTRACTION） - 命名实体识别（NAMED_ENTITY_RECOGNITION） - 共指消解（COREFERENCE_RESOLUTION） # BioNLP 2011 GE 数据集卡片 ## 数据集描述 - **官方主页：** https://sites.google.com/site/bionlpst/bionlp-shared-task-2011/genia-event-extraction-genia - **PubMed 关联：** 是 - **公开性：** 是 - **任务：** 事件抽取（EE）、命名实体识别（NER）、共指消解（COREF）自2009年起，BioNLP-ST GE任务便致力于推动生物医学文档的细粒度信息抽取（Information Extraction，简称IE）技术发展。尤为特别的是，该任务以NFkB（核因子κB）作为生物医学信息抽取的示范领域展开研究。GENIA任务的目标是抽取发生于基因或基因产物之上的事件，此类实体被归类为"蛋白质（Protein）"，且不区分基因与基因产物本身。其他类型的物理实体（例如细胞、细胞组分）则不做相互区分，统一标注为"实体（Entity）"。 ## 引用信息 @inproceedings{10.5555/2107691.2107693, author = {Kim, Jin-Dong and Wang, Yue and Takagi, Toshihisa and Yonezawa, Akinori}, title = {BioNLP 2011共享任务中GENIA事件任务综述（Overview of Genia Event Task in BioNLP Shared Task 2011）}, year = {2011}, isbn = {9781937284091}, publisher = {计算语言学协会（Association for Computational Linguistics)}, address = {美国}, abstract = {GENIA事件任务是一项生物分子事件抽取任务，作为BioNLP 2011共享任务的核心任务之一开展。这是该任务第二次面向社区开展集中式研究攻关，旨在衡量2009年以来该领域的技术进展，并评估技术对全文文献的泛化能力。经过3个月的系统开发周期，共有15支团队在测试集上提交了性能结果。结果显示，该领域社区在性能提升与技术泛化两方面均取得了显著进展。}, booktitle = {BioNLP 2011共享任务研讨会论文集（Proceedings of the BioNLP Shared Task 2011 Workshop)}, pages = {7–15}, numpages = {9}, location = {美国俄勒冈州波特兰市}, series = {BioNLP Shared Task '11} }

提供机构：

bigbio

原始信息汇总

BioNLP 2011 GE 数据集概述

基本信息

语言: 英语
许可证: CC-BY-3.0
多语言支持: 单语种
数据集名称: BioNLP 2011 GE
主页: BioNLP 2011 GE 主页
是否公开: 是
是否包含PubMed数据: 是

任务类型

事件抽取 (EVENT_EXTRACTION)
命名实体识别 (NAMED_ENTITY_RECOGNITION)
指代消解 (COREFERENCE_RESOLUTION)

数据集描述

BioNLP-ST GE 任务自2009年起推动从生物医学文档中进行细粒度信息抽取（IE）的发展，特别关注NFkB领域作为生物医学IE的模型领域。GENIA任务旨在抽取发生在基因或基因产品上的事件，这些事件被类型化为“蛋白质”，不区分基因和基因产品。其他类型的物理实体，如细胞、细胞组件，不相互区分，其类型被指定为“实体”。

引用信息

@inproceedings{10.5555/2107691.2107693, author = {Kim, Jin-Dong and Wang, Yue and Takagi, Toshihisa and Yonezawa, Akinori}, title = {Overview of Genia Event Task in BioNLP Shared Task 2011}, year = {2011}, isbn = {9781937284091}, publisher = {Association for Computational Linguistics}, address = {USA}, abstract = {The Genia event task, a bio-molecular event extraction task, is arranged as one of the main tasks of BioNLP Shared Task 2011. As its second time to be arranged for community-wide focused efforts, it aimed to measure the advance of the community since 2009, and to evaluate generalization of the technology to full text papers. After a 3-month system development period, 15 teams submitted their performance results on test cases. The results show the community has made a significant advancement in terms of both performance improvement and generalization.}, booktitle = {Proceedings of the BioNLP Shared Task 2011 Workshop}, pages = {7–15}, numpages = {9}, location = {Portland, Oregon}, series = {BioNLP Shared Task 11} }

搜集汇总

数据集介绍

构建方式

在生物医学信息抽取领域，BioNLP 2011 GE数据集依托GENIA语料库构建，专注于NFκB信号通路这一模型领域。该数据集通过专家标注，从生物医学文献中提取涉及基因或基因产物的分子事件，实体类型简化为“蛋白质”与“实体”两类，旨在支持细粒度事件抽取任务。其构建过程严格遵循共享任务规范，确保了数据的一致性与科学性，为后续研究提供了可靠的基础。

特点

该数据集以英文生物医学文献为来源，具有单语特性，并采用CC BY 3.0许可协议开放访问。其核心特点在于聚焦分子事件抽取，涵盖事件抽取、命名实体识别及共指消解三项任务，实体标注采用简化类型策略，突出蛋白质相关事件的精细刻画。数据集经过PubMed认证，具备高度的权威性与专业性，适用于推动生物医学自然语言处理技术的发展。

使用方法

研究人员可通过HuggingFace平台直接访问该数据集，利用其进行生物医学事件抽取模型的训练与评估。使用时应遵循标注规范，重点关注蛋白质相关事件的触发词与论元结构。数据集支持多种任务格式，用户可根据需要选择相应子集，结合预训练模型进行微调，以提升在生物医学文本中的信息抽取性能，促进领域应用的深化。

背景与挑战

背景概述

生物医学文献信息抽取领域长期面临从非结构化文本中精准提取结构化知识的挑战。BioNLP 2011 GE数据集由BioNLP共享任务于2011年推出，核心研究人员包括Jin-Dong Kim、Yue Wang等，隶属于GENIA项目。该数据集聚焦于NFκB信号通路这一模型领域，旨在从生物医学全文中抽取基因或基因产物上发生的分子事件，任务涵盖事件抽取、命名实体识别与共指消解。作为社区评估的重要基准，它显著推动了细粒度生物医学信息抽取技术的发展，并为后续研究提供了关键的数据基础与评估框架。

当前挑战

该数据集致力于解决生物医学事件抽取这一核心问题，其挑战在于生物分子事件的复杂性、嵌套性与上下文依赖性，要求系统能精准识别触发词、论元角色及事件类型。构建过程中的挑战则体现在标注规范的设计上，需在保持生物学准确性与标注一致性之间取得平衡，例如将基因与基因产物统一标注为“Protein”类型，而将其他物理实体归为“Entity”，这种抽象虽简化了任务，但也可能丢失部分生物学细节，对标注者的专业素养与跨文献一致性提出了较高要求。

常用场景

经典使用场景

在生物医学信息抽取领域，BioNLP 2011 GE数据集作为基准资源，常被用于评估细粒度事件抽取模型的性能。该数据集聚焦于NFκB信号通路这一经典生物医学模型，通过标注基因或基因产物上的分子事件，如结合、表达或调控，为研究者提供了结构化的文本注释框架。其应用场景涵盖从生物医学文献中自动提取蛋白质相互作用网络，支持系统生物学分析，推动了事件抽取技术在生物医学文本挖掘中的标准化进程。

解决学术问题

该数据集有效解决了生物医学文献中复杂事件结构自动识别与抽取的学术挑战。通过提供精细的事件类型与实体关系标注，它帮助研究者克服了传统命名实体识别在区分基因、蛋白质及其动态交互方面的局限。其意义在于促进了事件抽取模型的泛化能力评估，使技术能够适应全文论文的复杂语境，为生物医学知识发现提供了可扩展的自动化工具，加速了领域内信息整合与知识图谱构建。

衍生相关工作

基于该数据集，学术界衍生了一系列经典研究工作，包括基于规则、机器学习及深度学习的生物医学事件抽取模型。例如，多团队在BioNLP共享任务中提出的联合学习框架，通过整合命名实体识别与事件检测，显著提升了事件边界的识别精度。后续研究进一步扩展了模型对嵌套事件和跨句关系的处理能力，推动了生物医学自然语言处理向更细粒度、更上下文感知的方向演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集