five

DFKI-SLT/CoMAGC

收藏
Hugging Face2024-06-21 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/DFKI-SLT/CoMAGC
下载链接
链接失效反馈
官方服务:
资源简介:
CoMAGC数据集是一个关于基因与癌症关系的多面注释语料库。数据集包含821个从MEDLINE摘要中收集的句子,涉及前列腺癌、乳腺癌和卵巢癌三种癌症类型。每个注释由四个语义正交的概念组成,分别是基因表达变化(CGE)、细胞状态变化(CCS)、命题类型(PT)和初始基因表达水平(IGE)。这些概念共同表达了基因如何变化、癌症如何变化以及基因与癌症之间的因果关系。数据集以JSONL格式提供,语言为英语。

CoMAGC数据集是一个关于基因与癌症关系的多面注释语料库。数据集包含821个从MEDLINE摘要中收集的句子,涉及前列腺癌、乳腺癌和卵巢癌三种癌症类型。每个注释由四个语义正交的概念组成,分别是基因表达变化(CGE)、细胞状态变化(CCS)、命题类型(PT)和初始基因表达水平(IGE)。这些概念共同表达了基因如何变化、癌症如何变化以及基因与癌症之间的因果关系。数据集以JSONL格式提供,语言为英语。
提供机构:
DFKI-SLT
原始信息汇总

CoMAGC 数据集概述

数据集描述

数据集摘要

CoMAGC 是一个包含基因-癌症关系多方面注释的语料库。该数据集包含从 MEDLINE 摘要中收集的 821 个句子,涉及前列腺癌、乳腺癌和卵巢癌三种癌症类型。每个注释由四个语义上正交的概念组成,共同表达基因变化、癌症变化以及基因与癌症之间的因果关系。

注释概念

  • CGE (Change in Gene Expression): 捕获基因表达水平是增加还是减少。
    • 可能值:increased, decreased
  • CCS (Change in Cell State): 捕获细胞在基因表达水平变化时的变化方式。
    • 可能值:normalTOnormal, normalTOcancer, cancerTOcancer, cancerTOnormal, unidentifiable
  • PT (Proposition Type): 捕获基因表达变化与细胞属性变化之间的因果关系。
    • 可能值:observation, causality
  • IGE (Initial Gene Expression): 捕获基因在表达水平变化前的初始表达水平。
    • 可能值:up-regulated, down-regulated, unchanged, unidentifiable

数据集结构

数据字段

  • pmid: 句子ID,字符串类型。
  • sentence: 句子文本,字符串类型。
  • cancer_type: 癌症类型,字符串类型。
  • gene: 基因实体
    • name: 基因实体文本,字符串类型。
    • pos: 基因实体的字符偏移量,整数列表。
  • cancer: 癌症实体
    • name: 癌症实体文本,字符串类型。
    • pos: 癌症实体的字符偏移量,整数列表。
  • CGE: 基因表达变化,字符串类型。
  • CCS: 细胞状态变化,字符串类型。
  • PT: 命题类型,字符串类型。
  • IGE: 初始基因表达,字符串类型。
  • expression_change_keyword_1: 表达变化关键词1
    • name: 关键词文本,字符串类型。
    • pos: 关键词的字符偏移量,整数列表。
    • type: 关键词类型,字符串类型。
  • expression_change_keyword_2: 表达变化关键词2
    • name: 关键词文本,字符串类型。
    • pos: 关键词的字符偏移量,整数列表。
    • type: 关键词类型,字符串类型。

数据分割

  • train: 训练集,包含 821 个样本,总大小为 361666 字节。

引用

@article{lee2013comagc, title={CoMAGC: a corpus with multi-faceted annotations of gene-cancer relations}, author={Lee, Hee-Jin and Shim, Sang-Hyung and Song, Mi-Ryoung and Lee, Hyunju and Park, Jong C}, journal={BMC bioinformatics}, volume={14}, pages={1--17}, year={2013}, publisher={Springer} }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
CoMAGC是一个专门用于基因-癌症关系分析的英文文本数据集,包含821个来自MEDLINE摘要的句子,覆盖前列腺癌、乳腺癌和卵巢癌三种癌症类型。该数据集的核心特点是提供了多面注释,包括基因表达变化、细胞状态变化、因果关系和初始基因表达水平,旨在支持生物医学文本挖掘和分类任务,例如研究基因表达如何影响癌症发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作