five

bigbio/biorelex

收藏
Hugging Face2022-12-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigbio/biorelex
下载链接
链接失效反馈
官方服务:
资源简介:
BioRelEx是一个生物关系抽取数据集。版本1.0包含2010个标注句子,描述了各种生物实体(如蛋白质、化学物质等)之间的结合相互作用。其中1405个句子用于训练,201个句子用于验证,这些数据公开可用。另外404个句子用于测试,目前不公开。每个句子都包含与“结合”相关的词汇,并提供了完整的生物实体标注、实体类型(32种类型)、基础信息(如UniProt、InterPro等数据库的链接)、共指消解(如同义词和缩写)以及结合相互作用类型(积极、消极和中性)。

语言: - 英语 bigbio语言: - 英语 许可协议:未知 多语言属性:单语言 bigbio许可简称:UNKNOWN 标准名称:BioRelEx 项目主页:https://github.com/YerevaNN/BioRelEx 支持PubMed标注:是 公开可用:是 bigbio任务包含: - 命名实体识别(NAMED_ENTITY_RECOGNITION) - 命名实体消歧(NAMED_ENTITY_DISAMBIGUATION) - 关系抽取(RELATION_EXTRACTION) - 共指消解(COREFERENCE_RESOLUTION) --- # BioRelEx数据集卡片 ## 数据集说明 - **项目主页:** https://github.com/YerevaNN/BioRelEx - **PubMed支持:** 是 - **公开性:** 是 - **任务:** 命名实体识别、命名实体消歧、关系抽取、共指消解 BioRelEx是一款生物关系抽取数据集。其1.0版本包含2010条标注语句,用于描述各类生物实体(蛋白质、化学品等)之间的结合相互作用。其中1405条语句用于训练,201条语句用于验证,这两部分均可通过https://github.com/YerevaNN/BioRelEx/releases公开获取。另有404条测试语句为本次Codalab竞赛(https://competitions.codalab.org/competitions/20468)的私有数据。所有语句均包含单词"bind"、"bound"或"binding"。 针对每条语句,我们提供以下内容: 1. 语句中出现的所有生物实体的完整标注; 2. 大多数蛋白质及其家族的实体类型(共32种)与实体链接信息(指向UniProt、InterPro等数据库的链接); 3. 同一句中实体间的共指关系(例如缩写与同义词); 4. 已标注实体之间的结合相互作用; 5. 结合相互作用类型:正向、负向(A不与B结合)与中性(A可能与B结合)。 ## 引用信息 @inproceedings{khachatrian2019biorelex, title = "{B}io{R}el{E}x 1.0: 生物关系抽取基准数据集", author = "Khachatrian, Hrant and Nersisyan, Lilit and Hambardzumyan, Karen and Galstyan, Tigran and Hakobyan, Anna and Arakelyan, Arsen and Rzhetsky, Andrey and Galstyan, Aram", booktitle = "第18届BioNLP研讨会与共享任务会议论文集", month = 8月, year = "2019", address = "意大利佛罗伦萨", publisher = "计算语言学协会", url = "https://aclanthology.org/W19-5019", doi = "10.18653/v1/W19-5019", pages = "176--190" }
提供机构:
bigbio
原始信息汇总

BioRelEx 数据集概述

基本信息

  • 名称: BioRelEx
  • 语言: 英语
  • 许可证: 未知
  • 多语言性: 单语
  • 公开性: 公开
  • PubMed链接: 可用

数据集描述

  • 主页: https://github.com/YerevaNN/BioRelEx
  • 任务:
    • 命名实体识别 (NER)
    • 命名实体消歧 (NED)
    • 关系抽取 (RE)
    • 共指消解 (COREF)

数据集内容

  • 版本: 1.0
  • 句子数量: 2010
  • 训练集: 1405 句
  • 验证集: 201 句
  • 测试集: 404 句(私有)
  • 数据来源: 生物学领域,涉及蛋白质、化学物质等的结合互动描述
  • 特征:
    • 完整标注所有生物实体
    • 实体类型(32种)及链接至数据库的定位信息
    • 句子内实体的共指关系
    • 实体间的结合互动及互动类型(正、负、中性)

数据集使用

  • 训练和验证数据: 公开可用,地址为 https://github.com/YerevaNN/BioRelEx/releases
  • 测试数据: 私有,用于Codalab竞赛,链接为 https://competitions.codalab.org/competitions/20468
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作