five

marianna13/litarch

收藏
Hugging Face2023-10-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/marianna13/litarch
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集来源于PubChem Literature Archive,包含三种形式的数据:图像-文本对、交错文本和纯文本。图像-文本对部分展示了与Angelman综合征相关的图像及其描述,交错文本部分包含关于麻风病病原体的描述和基因分布图,纯文本部分则是对麻风病病原体的详细描述。

This dataset is derived from the PubChem Literature Archive and encompasses three types of data: image-text pairs, interleaved text, and plain text. The image-text pair section presents images associated with Angelman syndrome and their corresponding descriptions. The interleaved text section contains descriptions of the leprosy pathogen and its gene distribution maps. The plain text section provides detailed descriptions of the leprosy pathogen.
提供机构:
marianna13
原始信息汇总

数据集概述

数据集内容

该数据集包含从PubChem Literature Archive获取的教科书中的图像-文本对。

数据样本

图像-文本对

  1. 图像路径: litarch_figures/ca/84/gene_NBK1116/angelmanF1.jpg 文本描述:

    个体描绘了经过基因确认的Angelman综合征诊断。常见的快乐表情和不稳定的步态伴随举起的胳膊。有时,面部外观可能暗示诊断,但通常面部特征并不明显。

  2. 图像路径: litarch_figures/ca/84/gene_NBK1116/angelmanF2.jpg 文本描述:

    染色体区域15q11.2-q13的示意图,指示断点区域BP1-BP6。低拷贝重复元素位于这些断点区域内(详见正文)。约90%导致Angelman综合征的染色体缺失从BP1或BP2开始,终止于BP3区域(I类和II类)。约10%的缺失更大,通常从BP1延伸到BP5,很少超过BP5。未印记的基因(双亲表达)用空心圆圈表示。两个关键的印记中心(IC)元素,AS-SRO和PWS-SRO,用空心方框表示。基因SNRUF-SNRPN(阴影方框)与PWS-SRO有部分重叠。SNURF-SNRPN sense/UBE3A antisense转录本标记为UBE3A-AS。

  3. 图像路径: litarch_figures/ca/84/gene_NBK1116/angelmanF3.jpg 文本描述:

    谱系图展示了Angelman综合征(AS)中的印记遗传。从男性(左上,I-1)继承的有害UBE3A致病变异对其两个孩子(II-2,II-4)没有影响,因为他们从母亲(I-2)那里继承了正常激活的UBE3A。(注意:正常大脑功能只需要一个活跃的UBE3A等位基因。)如果他的携带者女儿(II-2)将UBE3A致病变异传给孙子和孙女(III-1,III-2),他们都将患有AS,因为他们从父亲那里继承了失活的UBE3A;因此,两个孩子都不会表达UBE3A等位基因。同样的解释适用于AS发生在曾侄女(右下,IV-2)。

文本描述

以最基本的方式生存似乎是麻风分枝杆菌(引起麻风病的病原体)的运作方式。其基因组序列显示,它随着时间的推移经历了大规模的基因组“缩减”,丢弃了超过一半的基因,成为微生物病原体中基因组缩减最显著的例子。麻风杆菌以其被确认为与人类疾病相关的第一个微生物而闻名。它通过侵入和在称为吞噬体的巨噬细胞空泡内繁殖来逃避宿主的免疫反应。从那里,它感染外周神经系统的施旺细胞,破坏髓鞘生产,从而导致麻风病的典型特征,包括皮肤病变和感觉丧失。

图像-文本对

  1. 图像路径: litarch_figures/df/45/coffeebrk_NBK2345/A559.jpg 文本描述:

    麻风分枝杆菌的蛋白质编码基因分布图。麻风杆菌基因组包含许多基因删除和衰变的例子。基因组中各种基因的相对位置在图中描绘。蛋白质编码基因根据其在直系同源群(COGs)功能类别中的分类在图中用颜色编码。COGs代表至少在3个系统发育上远缘的基因组中发现的蛋白质或蛋白质组。有关COGs的更多信息,请参见Science 1997年10月24日:278(5338):631-7。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作