EMBO/SourceData
收藏SourceData Dataset 概述
数据集基本信息
- 许可证: CC-BY-4.0
- 任务类别:
- 令牌分类(Token-Classification)
- 语言: 英语(en)
- 标签:
- 生物学(biology)
- 医学(medical)
- 命名实体识别(NER)
- 命名实体链接(NEL)
- 大小类别: 10K<n<100K
- 美观名称: SODA-NLP
数据集描述
SourceData 是最大的注释生物医学数据集,专注于机器学习和AI在出版环境中的应用。该数据集独特之处在于其关注科学证据的核心——图表标题,并提供完整的注释图表标题,可进一步使用全文、摘要或标题进行上下文丰富。数据集的目标是提取描述在这些图表上进行的实验性质。
SourceData 还通过标记实验中存在的生物实体之间的因果关系,为语料库中的每个生物医学实体分配实验角色,展示了其独特性。该数据集一致地注释了九种不同的生物实体,并首次注释了实验测定及其生物实体在其中的角色。每个实体都链接到相应的本体,允许实体消歧和NEL。
数据集使用
数据集采用语义版本控制,加载时指定版本将提供不同版本。以下代码展示了如何加载最新版本的数据集:
python from datasets import load_dataset
Load NER
ds = load_dataset("EMBO/SourceData", "NER", version="2.0.3")
Load PANELIZATION
ds = load_dataset("EMBO/SourceData", "PANELIZATION", version="2.0.3")
Load GENEPROD ROLES
ds = load_dataset("EMBO/SourceData", "ROLES_GP", version="2.0.3")
Load SMALL MOLECULE ROLES
ds = load_dataset("EMBO/SourceData", "ROLES_SM", version="2.0.3")
Load MULTI ROLES
ds = load_dataset("EMBO/SourceData", "ROLES_MULTI", version="2.0.3")
数据集结构
数据实例
数据字段
words: 分词后的文本列表。panel_id: 示例所属的面板ID。label_ids:entity_types: 实体类型的IOB2标签列表。roles: 实验角色的IOB2标签列表。panel_start: 面板开始的IOB2标签列表。multi roles: 包含两个不同的标签集。
数据分割
-
NER 和 ROLES:
DatasetDict({ train: Dataset({ features: [words, labels, tag_mask, text], num_rows: 55250 }) test: Dataset({ features: [words, labels, tag_mask, text], num_rows: 6844 }) validation: Dataset({ features: [words, labels, tag_mask, text], num_rows: 7951 }) })
-
PANELIZATION:
DatasetDict({ train: Dataset({ features: [words, labels, tag_mask], num_rows: 14655 }) test: Dataset({ features: [words, labels, tag_mask], num_rows: 1871 }) validation: Dataset({ features: [words, labels, tag_mask], num_rows: 2088 }) })
数据集创建
来源数据
- 初始数据收集和规范化: 图例根据SourceData框架进行注释,使用SourceData API下载源数据。
- 源语言生产者: 示例来自细胞和分子生物学科学论文的图例。
注释
- 注释过程: 由SourceData项目的专家策展人手动完成。
- 注释者: SourceData项目的策展人。
使用数据时的考虑
- 社会影响: 不适用。
- 偏见讨论: 示例偏向于细胞和分子生物学,且主要来自EMBO Press期刊。
- 其他已知限制: 疾病标注最近被添加,但数量很少且不一致。
附加信息
- 数据集策展人: Thomas Lemberger, EMBO; Jorge Abreu Vicente, EMBO
- 许可证信息: CC BY 4.0
- 引用信息: 目前正在准备数据集的论文,预计2023年春季完成。在此之前,应引用以下论文: latex @article {Liechti2017, author = {Liechti, Robin and George, Nancy and Götz, Lou and El-Gebali, Sara and Chasapi, Anastasia and Crespo, Isaac and Xenarios, Ioannis and Lemberger, Thomas}, title = {SourceData - a semantic platform for curating and searching figures}, year = {2017}, volume = {14}, number = {11}, doi = {10.1038/nmeth.4471}, URL = {https://doi.org/10.1038/nmeth.4471}, eprint = {https://www.biorxiv.org/content/early/2016/06/20/058529.full.pdf}, journal = {Nature Methods} }



