DFKI-SLT/CoMAGC
收藏Hugging Face2024-06-21 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/DFKI-SLT/CoMAGC
下载链接
链接失效反馈官方服务:
资源简介:
CoMAGC数据集是一个关于基因与癌症关系的多面注释语料库。数据集包含821个从MEDLINE摘要中收集的句子,涉及前列腺癌、乳腺癌和卵巢癌三种癌症类型。每个注释由四个语义正交的概念组成,分别是基因表达变化(CGE)、细胞状态变化(CCS)、命题类型(PT)和初始基因表达水平(IGE)。这些概念共同表达了基因如何变化、癌症如何变化以及基因与癌症之间的因果关系。数据集以JSONL格式提供,语言为英语。
CoMAGC数据集是一个关于基因与癌症关系的多面注释语料库。数据集包含821个从MEDLINE摘要中收集的句子,涉及前列腺癌、乳腺癌和卵巢癌三种癌症类型。每个注释由四个语义正交的概念组成,分别是基因表达变化(CGE)、细胞状态变化(CCS)、命题类型(PT)和初始基因表达水平(IGE)。这些概念共同表达了基因如何变化、癌症如何变化以及基因与癌症之间的因果关系。数据集以JSONL格式提供,语言为英语。
提供机构:
DFKI-SLT
原始信息汇总
CoMAGC 数据集概述
数据集描述
数据集摘要
CoMAGC 是一个包含基因-癌症关系多方面注释的语料库。该数据集包含从 MEDLINE 摘要中收集的 821 个句子,涉及前列腺癌、乳腺癌和卵巢癌三种癌症类型。每个注释由四个语义上正交的概念组成,共同表达基因变化、癌症变化以及基因与癌症之间的因果关系。
注释概念
- CGE (Change in Gene Expression): 捕获基因表达水平是增加还是减少。
- 可能值:
increased,decreased
- 可能值:
- CCS (Change in Cell State): 捕获细胞在基因表达水平变化时的变化方式。
- 可能值:
normalTOnormal,normalTOcancer,cancerTOcancer,cancerTOnormal,unidentifiable
- 可能值:
- PT (Proposition Type): 捕获基因表达变化与细胞属性变化之间的因果关系。
- 可能值:
observation,causality
- 可能值:
- IGE (Initial Gene Expression): 捕获基因在表达水平变化前的初始表达水平。
- 可能值:
up-regulated,down-regulated,unchanged,unidentifiable
- 可能值:
数据集结构
数据字段
pmid: 句子ID,字符串类型。sentence: 句子文本,字符串类型。cancer_type: 癌症类型,字符串类型。gene: 基因实体name: 基因实体文本,字符串类型。pos: 基因实体的字符偏移量,整数列表。
cancer: 癌症实体name: 癌症实体文本,字符串类型。pos: 癌症实体的字符偏移量,整数列表。
CGE: 基因表达变化,字符串类型。CCS: 细胞状态变化,字符串类型。PT: 命题类型,字符串类型。IGE: 初始基因表达,字符串类型。expression_change_keyword_1: 表达变化关键词1name: 关键词文本,字符串类型。pos: 关键词的字符偏移量,整数列表。type: 关键词类型,字符串类型。
expression_change_keyword_2: 表达变化关键词2name: 关键词文本,字符串类型。pos: 关键词的字符偏移量,整数列表。type: 关键词类型,字符串类型。
数据分割
train: 训练集,包含 821 个样本,总大小为 361666 字节。
引用
@article{lee2013comagc, title={CoMAGC: a corpus with multi-faceted annotations of gene-cancer relations}, author={Lee, Hee-Jin and Shim, Sang-Hyung and Song, Mi-Ryoung and Lee, Hyunju and Park, Jong C}, journal={BMC bioinformatics}, volume={14}, pages={1--17}, year={2013}, publisher={Springer} }
搜集汇总
数据集介绍

背景与挑战
背景概述
CoMAGC是一个专门用于基因-癌症关系分析的英文文本数据集,包含821个来自MEDLINE摘要的句子,覆盖前列腺癌、乳腺癌和卵巢癌三种癌症类型。该数据集的核心特点是提供了多面注释,包括基因表达变化、细胞状态变化、因果关系和初始基因表达水平,旨在支持生物医学文本挖掘和分类任务,例如研究基因表达如何影响癌症发展。
以上内容由遇见数据集搜集并总结生成



