您的位置:

TCGA数据库使用教程

一、TCGA数据库简介

TCGA(The Cancer Genome Atlas)项目是美国国家癌症研究院、美国癌症协会和美国国立卫生研究院为加快癌症研究进程共同推动的大型合作计划,致力于系统性地对肿瘤相关的基因组变异、基因表达和表观遗传变异等最为重要的生物学事件展开深入研究。该项目在2006年启动并实施,旨在深入探索肿瘤形成、发展和治疗等问题,从而为未来的癌症基因治疗和靶向治疗提供更为完善的科学理论依据。

二、TCGA数据库官网

TCGA数据库的官网地址为 https://portal.gdc.cancer.gov/ ,可以通过该网站进行数据的查询、浏览和下载。

三、TCGA数据库最全讲解

TCGA数据库包含多个数据类型,包括基因组序列、基因表达、蛋白质组、表观基因组等,数据涵盖多个癌症类型。以下是在TCGA数据库中查询基因表达数据的步骤:

# 导入需要的Python库
import requests
import json

# 构造查询的URL
gene_name = "BRAF"
cancer_type = "skin cutaneous melanoma"
url = "https://api.gdc.cancer.gov/slicing/view/1ac9c535-56d2-4f22-ba20-ea4c485352a9?fields=_id,donor_age_at_diagnosis,donor_id,donor_sex,project.project_id,aggregated_somatic_mutation.variant_classification,country,disease_type,experimental_strategy,file_id,file_name,primary_site,sample_id,sample_type,data_category,file_format,file_name,data_type,cases.samples.sample_type,files.analysis.workflow_type,files.analysis.workflow_version,files.cases.case_id,files.cases.samples.sample_id,files.experimental_strategy,files.file_name,files.data_format,files.data_type,files.file_id,cases.case_id,cases.project.project_id,cases.samples.sample_id,cases.samples.tumor_descriptor,cases.tissue_source_site,cases.primary_site,cases.disease_type,biospecimen_samples.sample_type,cases.samples.submitter_id,cases.samples.tumor_descriptor,cases.submitter_id,experimental_strategies.experimental_strategy,cases.samples.submitter_id,cases.samples.tissue_type,cases.samples.tissue_type,genes.gene_id,genes.hugo_symbol,genes.transcript_ids,genes.description,genes.chromosome,genes.start,genes.end,uniprot.accession,uniprot.isoform_id,uniprot.isoform_sequence,uniprot.sequence_version,uniprot.taxonomy_id,uniprot.uniprot_id&return_type=JSON&filters=%7B%22op%22%3A%22and%22%2C%22content%22%3A%5B%7B%22op%22%3A%22in%22%2C%22content%22%3A%7B%22field%22%3A%22genes.hugo_symbol%22%2C%22value%22%3A%5B%22BRAF%22%5D%7D%7D%2C%7B%22op%22%3A%22in%22%2C%22content%22%3A%7B%22field%22%3A%22cases.project.project_id%22%2C%22value%22%3A%5B%22TCGA-SKCM%22%5D%7D%7D%5D%7D&sort=%5B%5D&from=1&size=20000"

# 发送GET请求获取数据
response = requests.get(url)

# 解析JSON数据
data = json.loads(response.text)

# 输出第一条数据的基因表达数据
print(data["data"][0]["genes"][0]["expression"])

以上代码演示了如何通过TCGA数据库的API查询BRAF基因在皮肤黑色素瘤(TCGA-SKCM)中的表达数据。代码中使用了Python的requests库和json库来发送GET请求和解析JSON数据。查询结果将返回20000条数据,每条数据包含有文件、病人、样本等多种信息。

四、TCGA数据库详细介绍

TCGA数据库中包含了多个癌症类型的基因组数据,该数据库的主要特点如下:

1、数据类型丰富:TCGA数据库不仅包括基因组序列数据,还包括基因表达、蛋白质组、表观基因组等多种数据类型。

2、数据量大:截至2021年初,TCGA数据库中已经收集了超过2.5PB的数据。

3、多个癌症类型:TCGA项目研究的癌症类型包括乳腺癌、肾癌、结肠癌、膀胱癌等多种常见癌症类型。

4、公开透明:TCGA数据库中的数据是公开的,所有人都可以免费获取和使用。

5、数据标准化:为保证数据质量和可比性,TCGA项目采用了统一的标准进行数据处理、分析和注释。

五、TCGA是什么样的数据库

TCGA是生物医学研究领域中非常重要的数据库之一,其主要特点是包含了大量的肿瘤相关的基因组数据,并且对这些数据进行了标准化和处理,因此可以用于不同癌症类型和研究目的的基因组学分析。