five

EMBO/SourceData

收藏
Hugging Face2025-01-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/EMBO/SourceData
下载链接
链接失效反馈
官方服务:
资源简介:
SourceData数据集是最大的生物医学标注语料库,专注于科学证据的核心:图注。它提供了完整的标注图注,可以进一步通过全文、摘要或标题进行上下文丰富。数据集标注了九种不同的生物实体(基因、蛋白质、细胞、组织、亚细胞成分、物种、小分子和疾病),并首次标注了实验测定和生物实体在其中的角色。每个实体都链接到相应的本体,允许实体消歧和命名实体链接(NEL)。数据集支持NER、PANELIZATION和ROLES等任务,并提供了数据集的加载代码和版本信息。

SourceData数据集是最大的生物医学标注语料库,专注于科学证据的核心:图注。它提供了完整的标注图注,可以进一步通过全文、摘要或标题进行上下文丰富。数据集标注了九种不同的生物实体(基因、蛋白质、细胞、组织、亚细胞成分、物种、小分子和疾病),并首次标注了实验测定和生物实体在其中的角色。每个实体都链接到相应的本体,允许实体消歧和命名实体链接(NEL)。数据集支持NER、PANELIZATION和ROLES等任务,并提供了数据集的加载代码和版本信息。
提供机构:
EMBO
原始信息汇总

SourceData Dataset 概述

数据集基本信息

  • 许可证: CC-BY-4.0
  • 任务类别:
    • 令牌分类(Token-Classification)
  • 语言: 英语(en)
  • 标签:
    • 生物学(biology)
    • 医学(medical)
    • 命名实体识别(NER)
    • 命名实体链接(NEL)
  • 大小类别: 10K<n<100K
  • 美观名称: SODA-NLP

数据集描述

SourceData 是最大的注释生物医学数据集,专注于机器学习和AI在出版环境中的应用。该数据集独特之处在于其关注科学证据的核心——图表标题,并提供完整的注释图表标题,可进一步使用全文、摘要或标题进行上下文丰富。数据集的目标是提取描述在这些图表上进行的实验性质。

SourceData 还通过标记实验中存在的生物实体之间的因果关系,为语料库中的每个生物医学实体分配实验角色,展示了其独特性。该数据集一致地注释了九种不同的生物实体,并首次注释了实验测定及其生物实体在其中的角色。每个实体都链接到相应的本体,允许实体消歧和NEL。

数据集使用

数据集采用语义版本控制,加载时指定版本将提供不同版本。以下代码展示了如何加载最新版本的数据集:

python from datasets import load_dataset

Load NER

ds = load_dataset("EMBO/SourceData", "NER", version="2.0.3")

Load PANELIZATION

ds = load_dataset("EMBO/SourceData", "PANELIZATION", version="2.0.3")

Load GENEPROD ROLES

ds = load_dataset("EMBO/SourceData", "ROLES_GP", version="2.0.3")

Load SMALL MOLECULE ROLES

ds = load_dataset("EMBO/SourceData", "ROLES_SM", version="2.0.3")

Load MULTI ROLES

ds = load_dataset("EMBO/SourceData", "ROLES_MULTI", version="2.0.3")

数据集结构

数据实例

数据字段

  • words: 分词后的文本列表。
  • panel_id: 示例所属的面板ID。
  • label_ids:
    • entity_types: 实体类型的IOB2标签列表。
    • roles: 实验角色的IOB2标签列表。
    • panel_start: 面板开始的IOB2标签列表。
    • multi roles: 包含两个不同的标签集。

数据分割

  • NER 和 ROLES:

    DatasetDict({ train: Dataset({ features: [words, labels, tag_mask, text], num_rows: 55250 }) test: Dataset({ features: [words, labels, tag_mask, text], num_rows: 6844 }) validation: Dataset({ features: [words, labels, tag_mask, text], num_rows: 7951 }) })

  • PANELIZATION:

    DatasetDict({ train: Dataset({ features: [words, labels, tag_mask], num_rows: 14655 }) test: Dataset({ features: [words, labels, tag_mask], num_rows: 1871 }) validation: Dataset({ features: [words, labels, tag_mask], num_rows: 2088 }) })

数据集创建

来源数据

  • 初始数据收集和规范化: 图例根据SourceData框架进行注释,使用SourceData API下载源数据。
  • 源语言生产者: 示例来自细胞和分子生物学科学论文的图例。

注释

  • 注释过程: 由SourceData项目的专家策展人手动完成。
  • 注释者: SourceData项目的策展人。

使用数据时的考虑

  • 社会影响: 不适用。
  • 偏见讨论: 示例偏向于细胞和分子生物学,且主要来自EMBO Press期刊。
  • 其他已知限制: 疾病标注最近被添加,但数量很少且不一致。

附加信息

  • 数据集策展人: Thomas Lemberger, EMBO; Jorge Abreu Vicente, EMBO
  • 许可证信息: CC BY 4.0
  • 引用信息: 目前正在准备数据集的论文,预计2023年春季完成。在此之前,应引用以下论文: latex @article {Liechti2017, author = {Liechti, Robin and George, Nancy and Götz, Lou and El-Gebali, Sara and Chasapi, Anastasia and Crespo, Isaac and Xenarios, Ioannis and Lemberger, Thomas}, title = {SourceData - a semantic platform for curating and searching figures}, year = {2017}, volume = {14}, number = {11}, doi = {10.1038/nmeth.4471}, URL = {https://doi.org/10.1038/nmeth.4471}, eprint = {https://www.biorxiv.org/content/early/2016/06/20/058529.full.pdf}, journal = {Nature Methods} }
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作