five

Biomarker Benchmark - GSE19804

收藏
DataCite Commons2020-09-04 更新2024-07-27 收录
下载链接:
https://figshare.com/articles/dataset/GSE19804/2069698/5
下载链接
链接失效反馈
官方服务:
资源简介:
"Although smoking is the major risk factor for lung cancer, only 7% of female lung cancer patients in Taiwan have a history of cigarette smoking, extremely lower than those in Caucasian females. This report is a comprehensive analysis of the molecular signature of non-smoking female lung cancer in Taiwan."<br>http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE19804<br>We have included gene-expression data, the outcome (class) being predicted, and any clinical covariates. When gene-expression data were processed in multiple batches, we have provided batch information. Each data set is organized into a file set, where each contains all pertinent files for an individual dataset. The gene expression files have been normalized using both the SCAN and UPC methods using the SCAN.UPC package in Bioconductor (https://www.bioconductor.org/packages/release/bioc/html/SCAN.UPC.html). We summarized the data at the gene level using the BrainArray resource (http://brainarray.mbni.med.umich.edu/Brainarray/Database/CustomCDF/20.0.0/ensg.asp). We used Ensembl identifiers. The class, clinical, and batch data were hand curated to ensure consistency ("tidy data" formatting). In addition, the data files have been formatted to be imported easily into the ML-Flex machine learning package (http://mlflex.sourceforge.net/).

尽管吸烟是肺癌的主要危险因素,但中国台湾地区仅7%的女性肺癌患者有吸烟史,这一比例远低于高加索女性群体。本报告针对中国台湾地区非吸烟女性肺癌患者的分子特征展开了全面分析。 http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE19804 本数据集包含基因表达数据、待预测的结局(类别)以及所有临床协变量。若基因表达数据经多批次处理,我们已一并提供批次信息。每个数据集均整理为独立文件组,组内包含该数据集的全部相关文件。 基因表达文件已采用Bioconductor的SCAN.UPC软件包,通过SCAN与UPC两种方法完成标准化处理,相关资源链接:https://www.bioconductor.org/packages/release/bioc/html/SCAN.UPC.html。 我们借助BrainArray数据库(http://brainarray.mbni.med.umich.edu/Brainarray/Database/CustomCDF/20.0.0/ensg.asp)在基因水平对数据进行了汇总,并采用Ensembl标识符作为基因标识。 类别、临床及批次数据均经过人工整理,以确保数据一致性,遵循“整洁数据(tidy data)”的格式规范。 此外,所有数据文件均已优化格式,可直接导入ML-Flex机器学习软件包,相关资源链接:http://mlflex.sourceforge.net/。
提供机构:
figshare
创建时间:
2016-03-17
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集聚焦于台湾非吸烟女性肺癌的分子特征,包含基因表达数据、临床信息和预测类别,数据经过标准化处理并适用于机器学习分析。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作