快好知 kuaihz订阅观点

 

TCGA数据库讲解与数据下载

TCGA (The cancer genome atlas)是一个非常重要的癌症数据库,其主要收录各种人类癌症(包括亚型在内的肿瘤)的临床数据,基因组变异,mRNA表达,miRNA表达,甲基化等数据,是癌症研究者很重要的数据来源。

TCGA官网:https://cancergenome.nih.gov/abouttcga/overview

01:

数据等级

TCGA存储的数据可分为三个级别:

Level 1: 原始的测序数据(fasta,fastq等)

Level 2:比对好的bam文件

Level 3:为经过处理及标准化的数据

Level 1和Level 2文件很大,若要下载可使用官方提供的小工具:GDC Data Transfer Tool,然后自己重新比对来call mutation, 或者提取count data做差异表达分析(不适合懒人操作,且大多数人很难拿到权限,下面会说)。

02:

数据权限

Level 1和Level 2数据为controlled-access(限制下载),Level 3有部分是controlled-access,其余是开放下载,若你想下载数据level显示“Unauthorized”,则表示不能直接下载,需要先向TCGA申请使用权限。

比如:

理论上,限制下载数据可以通过申请dbgap账号获得下载权限,但是申请这个账号需要NIH/NCI资格审核,且需要提供eRA account ID(在美国申请grant对应的ID),所以一般只有国外PI才可能申请通过。所以对小白来说这个基本是行不通的,小编建议还是乖乖下载3级数据

03:

三级数据下载

TCGA-3级数据下载网站主要有两个:

 ① TCGA官方的data-portal: portal.gdc.cancer.gov

优点:数据最全,更新最快

缺点:每个样本是一个单独的文件,如果下载某一个癌症的RNA数据,要下载好几百个文件,然后合并(嫌麻烦的往下翻,小编强力推荐方法②!!)。

下载方法介绍:

在主页搜索想要下载的癌症类型

以表达数据为例,可见LUAD共有515个case有RNA-Seq数据,点击进入。

左边可以对样本进行筛选,点击右侧数字可以下载表达数据(Exp),临床数据(Clinical)和Annotation(注释信息,可以找到样本ID对应的case,control情况)。

注意表达数据根据分为了HTSeq-Counts,HTSeq-FPKM,HTSeq-FPKM-UQ三种类型,Counts是数据后台没有处理的原始表达量,而FPKM和FPKM-UQ是两种数据标准化处理后的数据,一般差异表达下载counts,下载所有样本后合并,用DESeq即可。

FPKM,FPKM-UQ计算方法:

     

② Firehose服务器:gdac.broadinstitute.org

优点:数据也来源于 portal.gdc.cancer.gov,但是将同一种癌症、同种类型的数据合并到了一起,超级方便,一键下载,无需合并数据

下载方法介绍:

点击LUAD对应的Data-Browse

稍等片刻,会弹出LUAD项目所有样本合并后的3级数据,需要什么数据点击文本即可下载,非常方便快捷。当然也可以下载临床数据等,各取所需了。

今天小编就为大家介绍这么多,当然还有其他下载方法,以及一些TCGA在线分析工具,不需要下载数据即可进行分析,小编下次再给大家介绍喽。

生信草堂

本站资源来自互联网,仅供学习,如有侵权,请通知删除,敬请谅解!
搜索建议:TCGA数据库讲解与数据下载  讲解  讲解词条  数据库  数据库词条  数据  数据词条  下载  下载词条  TCGA  TCGA词条  
上网

 微信收钱时语音提醒怎么开启

今天小编要和大家分享的是微信收钱时语音提醒怎么开启,希望能够帮助到大家。操作方法01:首先点击手机桌面中的微信,如下图所示。02:然后点击屏幕右下方的我,如下图...(展开)