bigbio/biorelex
收藏Hugging Face2022-12-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigbio/biorelex
下载链接
链接失效反馈官方服务:
资源简介:
BioRelEx是一个生物关系抽取数据集。版本1.0包含2010个标注句子,描述了各种生物实体(如蛋白质、化学物质等)之间的结合相互作用。其中1405个句子用于训练,201个句子用于验证,这些数据公开可用。另外404个句子用于测试,目前不公开。每个句子都包含与“结合”相关的词汇,并提供了完整的生物实体标注、实体类型(32种类型)、基础信息(如UniProt、InterPro等数据库的链接)、共指消解(如同义词和缩写)以及结合相互作用类型(积极、消极和中性)。
语言:
- 英语
bigbio语言:
- 英语
许可协议:未知
多语言属性:单语言
bigbio许可简称:UNKNOWN
标准名称:BioRelEx
项目主页:https://github.com/YerevaNN/BioRelEx
支持PubMed标注:是
公开可用:是
bigbio任务包含:
- 命名实体识别(NAMED_ENTITY_RECOGNITION)
- 命名实体消歧(NAMED_ENTITY_DISAMBIGUATION)
- 关系抽取(RELATION_EXTRACTION)
- 共指消解(COREFERENCE_RESOLUTION)
---
# BioRelEx数据集卡片
## 数据集说明
- **项目主页:** https://github.com/YerevaNN/BioRelEx
- **PubMed支持:** 是
- **公开性:** 是
- **任务:** 命名实体识别、命名实体消歧、关系抽取、共指消解
BioRelEx是一款生物关系抽取数据集。其1.0版本包含2010条标注语句,用于描述各类生物实体(蛋白质、化学品等)之间的结合相互作用。其中1405条语句用于训练,201条语句用于验证,这两部分均可通过https://github.com/YerevaNN/BioRelEx/releases公开获取。另有404条测试语句为本次Codalab竞赛(https://competitions.codalab.org/competitions/20468)的私有数据。所有语句均包含单词"bind"、"bound"或"binding"。
针对每条语句,我们提供以下内容:
1. 语句中出现的所有生物实体的完整标注;
2. 大多数蛋白质及其家族的实体类型(共32种)与实体链接信息(指向UniProt、InterPro等数据库的链接);
3. 同一句中实体间的共指关系(例如缩写与同义词);
4. 已标注实体之间的结合相互作用;
5. 结合相互作用类型:正向、负向(A不与B结合)与中性(A可能与B结合)。
## 引用信息
@inproceedings{khachatrian2019biorelex,
title = "{B}io{R}el{E}x 1.0: 生物关系抽取基准数据集",
author = "Khachatrian, Hrant and
Nersisyan, Lilit and
Hambardzumyan, Karen and
Galstyan, Tigran and
Hakobyan, Anna and
Arakelyan, Arsen and
Rzhetsky, Andrey and
Galstyan, Aram",
booktitle = "第18届BioNLP研讨会与共享任务会议论文集",
month = 8月,
year = "2019",
address = "意大利佛罗伦萨",
publisher = "计算语言学协会",
url = "https://aclanthology.org/W19-5019",
doi = "10.18653/v1/W19-5019",
pages = "176--190"
}
提供机构:
bigbio
原始信息汇总
BioRelEx 数据集概述
基本信息
- 名称: BioRelEx
- 语言: 英语
- 许可证: 未知
- 多语言性: 单语
- 公开性: 公开
- PubMed链接: 可用
数据集描述
- 主页: https://github.com/YerevaNN/BioRelEx
- 任务:
- 命名实体识别 (NER)
- 命名实体消歧 (NED)
- 关系抽取 (RE)
- 共指消解 (COREF)
数据集内容
- 版本: 1.0
- 句子数量: 2010
- 训练集: 1405 句
- 验证集: 201 句
- 测试集: 404 句(私有)
- 数据来源: 生物学领域,涉及蛋白质、化学物质等的结合互动描述
- 特征:
- 完整标注所有生物实体
- 实体类型(32种)及链接至数据库的定位信息
- 句子内实体的共指关系
- 实体间的结合互动及互动类型(正、负、中性)
数据集使用
- 训练和验证数据: 公开可用,地址为 https://github.com/YerevaNN/BioRelEx/releases
- 测试数据: 私有,用于Codalab竞赛,链接为 https://competitions.codalab.org/competitions/20468



