EMBO/SourceData

Name: EMBO/SourceData
Creator: EMBO
Published: 2025-01-30 14:00:58
License: 暂无描述

Hugging Face2025-01-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/EMBO/SourceData

下载链接

链接失效反馈

官方服务：

资源简介：

SourceData数据集是最大的生物医学标注语料库，专注于科学证据的核心：图注。它提供了完整的标注图注，可以进一步通过全文、摘要或标题进行上下文丰富。数据集标注了九种不同的生物实体（基因、蛋白质、细胞、组织、亚细胞成分、物种、小分子和疾病），并首次标注了实验测定和生物实体在其中的角色。每个实体都链接到相应的本体，允许实体消歧和命名实体链接（NEL）。数据集支持NER、PANELIZATION和ROLES等任务，并提供了数据集的加载代码和版本信息。

提供机构：

EMBO

原始信息汇总

SourceData Dataset 概述

数据集基本信息

许可证: CC-BY-4.0
任务类别:
- 令牌分类（Token-Classification）
语言: 英语（en）
标签:
- 生物学（biology）
- 医学（medical）
- 命名实体识别（NER）
- 命名实体链接（NEL）
大小类别: 10K<n<100K
美观名称: SODA-NLP

数据集描述

SourceData 是最大的注释生物医学数据集，专注于机器学习和AI在出版环境中的应用。该数据集独特之处在于其关注科学证据的核心——图表标题，并提供完整的注释图表标题，可进一步使用全文、摘要或标题进行上下文丰富。数据集的目标是提取描述在这些图表上进行的实验性质。

SourceData 还通过标记实验中存在的生物实体之间的因果关系，为语料库中的每个生物医学实体分配实验角色，展示了其独特性。该数据集一致地注释了九种不同的生物实体，并首次注释了实验测定及其生物实体在其中的角色。每个实体都链接到相应的本体，允许实体消歧和NEL。

数据集使用

数据集采用语义版本控制，加载时指定版本将提供不同版本。以下代码展示了如何加载最新版本的数据集：

python from datasets import load_dataset

Load NER

ds = load_dataset("EMBO/SourceData", "NER", version="2.0.3")

Load PANELIZATION

ds = load_dataset("EMBO/SourceData", "PANELIZATION", version="2.0.3")

Load GENEPROD ROLES

ds = load_dataset("EMBO/SourceData", "ROLES_GP", version="2.0.3")

Load SMALL MOLECULE ROLES

ds = load_dataset("EMBO/SourceData", "ROLES_SM", version="2.0.3")

Load MULTI ROLES

ds = load_dataset("EMBO/SourceData", "ROLES_MULTI", version="2.0.3")

数据集结构

数据实例

数据字段

words: 分词后的文本列表。
panel_id: 示例所属的面板ID。
label_ids:
- entity_types: 实体类型的IOB2标签列表。
- roles: 实验角色的IOB2标签列表。
- panel_start: 面板开始的IOB2标签列表。
- multi roles: 包含两个不同的标签集。

数据分割

NER 和 ROLES:

DatasetDict({ train: Dataset({ features: [words, labels, tag_mask, text], num_rows: 55250 }) test: Dataset({ features: [words, labels, tag_mask, text], num_rows: 6844 }) validation: Dataset({ features: [words, labels, tag_mask, text], num_rows: 7951 }) })
PANELIZATION:

DatasetDict({ train: Dataset({ features: [words, labels, tag_mask], num_rows: 14655 }) test: Dataset({ features: [words, labels, tag_mask], num_rows: 1871 }) validation: Dataset({ features: [words, labels, tag_mask], num_rows: 2088 }) })

数据集创建

来源数据

初始数据收集和规范化: 图例根据SourceData框架进行注释，使用SourceData API下载源数据。
源语言生产者: 示例来自细胞和分子生物学科学论文的图例。

注释

注释过程: 由SourceData项目的专家策展人手动完成。
注释者: SourceData项目的策展人。

使用数据时的考虑

社会影响: 不适用。
偏见讨论: 示例偏向于细胞和分子生物学，且主要来自EMBO Press期刊。
其他已知限制: 疾病标注最近被添加，但数量很少且不一致。

附加信息

数据集策展人: Thomas Lemberger, EMBO; Jorge Abreu Vicente, EMBO
许可证信息: CC BY 4.0
引用信息: 目前正在准备数据集的论文，预计2023年春季完成。在此之前，应引用以下论文： latex @article {Liechti2017, author = {Liechti, Robin and George, Nancy and Götz, Lou and El-Gebali, Sara and Chasapi, Anastasia and Crespo, Isaac and Xenarios, Ioannis and Lemberger, Thomas}, title = {SourceData - a semantic platform for curating and searching figures}, year = {2017}, volume = {14}, number = {11}, doi = {10.1038/nmeth.4471}, URL = {https://doi.org/10.1038/nmeth.4471}, eprint = {https://www.biorxiv.org/content/early/2016/06/20/058529.full.pdf}, journal = {Nature Methods} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集