生物信息学三大数据库NCBI-ENSEMBL-UCSC

seo靠我 2023-09-22 20:18:35

NCBI

NCBI(National Center for Biotechnology Information，美国国立生物技术信息中心）于1988年11月4日建立，是NIH（美国国立卫生研究院）的NLSEO靠我M（国立医学图书馆）的一个分支。目的是通过提供在线生物学数据和生物信息学分析工具来帮助人类更好的认知生物学问题。目前有将近40个在线的文库和分子生物学数据库，包括：PubMed, PubMed CeSEO靠我ntral, and GenBank等。网址： https://www.ncbi.nlm.nih.gov/

一、任务

为储存和分析分子生物学、生物化学、遗传学知识创建自动化系统；

从事研究基于计算机的信息处SEO靠我理过程的高级方法，用于分析生物学上重要的分子和化合物的结构与功能；

促进生物学研究人员和医护人员应用数据库和软件；

努力协作以获取世界范围内的生物技术信息。

二、内容

1.文献数据库

包括：PubMed,PubSEO靠我Med Central,Books等

2.序列资源库

包括人，小鼠，果蝇，线虫等各种物种的基因组数据库

包含DNA，RNA，蛋白等各种类型的数据

如：SNP,GEO,SRA等

3.常用序列分析工具

Entrez SEO靠我– 数据挖掘的工文本条件查询工具（Text Term Searching）来自于超过10万个种物的核酸和蛋白序列数据，连同蛋白三维结构，基因组图谱信息和文献信息检索网址：https://www.nSEO靠我cbi.nlm.nih.gov/gquery/

BLAST – 序列比对工具

https://blast.ncbi.nlm.nih.gov/Blast.cgi

4.数据下载与上传

数据下载接口：ftp://fSEO靠我tp.ncbi.nlm.nih.gov/

上传的工具有：Sequin，tbl2asn等，链接地址：https://www.ncbi.nlm.nih.gov/guide/data-software/

5.其SEO靠我他合作项目

比较常用的就是检索文献，检索序列，比对序列。了解更多内容可以参考官网手册：https://www.ncbi.nlm.nih.gov/books/NBK143764/

参考资料

https://bSEO靠我aike.baidu.com/item/NCBI/3598184?fr=aladdin

https://www.ncbi.nlm.nih.gov/books/NBK143764/

1.1 NCBI GEOSEO靠我

基因表达数据库(GEO,Gene Expression Omnibus database，https://www.ncbi.nlm.nih.gov/geo/ )是由NCBI负责维护的一个数据库，设计初SEO靠我衷是为了收集整理各种表达芯片数据，但是后来也加入了甲基化芯片，lncRNA，miRNA，CNV芯片等各种芯片，甚至高通量测序数据,是目前最大、最全面的公共基因表达数据资源。所有的数据均可以在ftp站点SEO靠我下载：ftp://ftp-trace.ncbi.nih.gov/geo/.

一、GEO数据库基础知识

GEO Dataset (GDS) 数据集的ID号

GEO Series (GSE) study的ID号SEO靠我

GEO Platform (GPL) 芯片平台

GEO Sample (GSM) 样本ID号

这些数据都可以在ftp里面直接下载。

二、数据上传

上传的方式：

网页

Excel表格

软件

MINiML格式上传

详细上传SEO靠我方法，参见：https://www.ncbi.nlm.nih.gov/geo/info/submission.html

提交Affymetrix芯片数据到GEO数据库 http://www.biotraSEO靠我inee.com/thread-810-1-1.html

三、数据挖掘

Entrez GEO-DataSets

官网： http://www.ncbi.nlm.nih.gov/entrez/query.fcSEO靠我gi?db=gds

收录整个实验数据，可以通过技术类型，作者，物种和实验变量等信息来进行搜索。一旦相关数据被查询到，可以通过提供上面的小工具做一些分析，比如：热电图分析，表达分析，亚群的影响等

2.EntSEO靠我rez GEO-Profiles

官网：https://www.ncbi.nlm.nih.gov/geoprofiles/

收录单个基因的表达谱数据。可以通过基因名字，GenBank编号，SAGE标签，GSEO靠我EO编号等来进行搜索

3.GEO BLAST

GEO Blast界面容许用户根据核酸序列的相似性来搜索相关的GEO-Profiles 所有的BLAST结果中“E”的标签代表这个数据跟GEO-ProfileSEO靠我s表达数据相关。

数据下载

我们一般是拿到了GSE的study ID号，然后直接把什么的url修改一下，就可以看到关于该study的所以描述信息，是用的什么测序平台(芯片数据，或者高通量测序)，测了多少个SEO靠我样本，来自于哪篇文章！所有需要的数据均可以下载，而且都是在上面的ftp里面可以根据规律去找到的，甚至可以自己拼接下载的url链接，来做批量化处理！

例如：用GSE75528，则在https://wwwSEO靠我.ncbi.nlm.nih.gov/geo/ 官网上直接搜索GSE75528 或直接输入 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE7SEO靠我5528 修改这个url最末尾的GSE号码就可以进入自己想去的任何研究的GEO页面。

如果是芯片数据，那么就需要自己仔细看GPL平台里面关于每个探针对应的注释信息，才能利用好别人的数据。如果是高通量测SEO靠我序数据，一般要同步进入该GSE对应的SRA里面去下载sra数据，然后转为fastq格式数据，自己做处理！

1.2 NCBI SRA

跟GEO类似,NCBI的SRA（Sequence ReadArchiveSEO靠我，https://www.ncbi.nlm.nih.gov/sra/ ）数据库是专门用于存储二代测序的原始数据，包括 454, IonTorrent, Illumina, SOLiD, HelicosSEO靠我 and CompleteGenomics等。除了原始序列数据外，SRA现在也存raw reads在参考基因的aligment information。

该数据库也是International NucSEO靠我leotide Sequence Database Collaboration (INSDC) 的一部分。INSDC包含：NCBI Sequence Read Archive (SRA), EuropSEO靠我ean Bioinformatics Institute (EBI), 和 DNA Database of Japan (DDBJ)。数据提交给其中任何一个数据库中后，数据都是共享的。

一、数据库结构

每SEO靠我个数据库都有自己最小的可发表单元。例如：PubMed最小可发表单元是一篇文献，SRA中最小可发表单元是一次实验（标签为：SRX#）。

NCBI中SRA数据结构的层次关系：Studies,ExperimeSEO靠我nts, Samples，Runs:

Studies是就实验目标而言的，一个study可能包含多个experiment。

Experiments包含了样本，DNA source，测序平台，数据处理等信息。SEO靠我

一个experiment可能包含一个或多个runs。

Runs 表示测序仪运行所产生的reads.

SRA数据库用不同的前缀加以区分：ERP or SRP for Studies, SRS for samSEO靠我ples, SRX for Experiments, and SRR for Runs。

二、数据上传

登陆NCBI账号

注册你的项目和生物样本

注册项目：https://www.ncbi.nlm.nih.gSEO靠我ov/bioproject/

注册样本：https://www.ncbi.nlm.nih.gov/biosample/

上传SRA数据

上传SRA metadata (关于该项目、实验的等信息)

上传序列数据SEO靠我

更详细的说明，参见 https://www.ncbi.nlm.nih.gov/sra/docs/submit/

三、数据下载

如果要下载每个study对应的runs的所有数据，我们需要下载安装SRA ToSEO靠我olkit！

链接地址： http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

SRA toolkit常用命令的说明文档见：

http:/SEO靠我/www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc。

这里我们需要使用prefetch命令进行下载

$prefetch SRR776503 SEO靠我SRR776505 SRR776506

下载完成后，会在你的工作主目录下生成一个ncbi的文件夹。

sra子文件夹中的.sra文件就是对应的runs文件。 ‘.sra’的后缀是SRA数据库对fastq文件SEO靠我的特殊压缩。使用前，我们需要将其解压为fastq文件。SRA Toolkit 包含了解压函数fastq-dump :$fastq-dump SRR776503.sra

通过命令行来下载

for ((i=2SEO靠我04;i<=209;i++)) ; do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/BySSEO靠我tudy/sra/SRP/SRP017/SRP017311/SRR620$i/SRR620$i.sra; done ls *sra |while read id; doSEO靠我 ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 $id;d

参考资料

http://www.bSEO靠我iotrainee.com/thread-800-1-1.html

https://www.ncbi.nlm.nih.gov/sra/docs/

1.3 NCBI dbSNP

单核苷酸多态性（single SEO靠我nucleotide polymorphism，SNP）主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传变异中最常见的一种，占所有已知多态性的90%以上。dbSNP(SEO靠我The Single Nucleotide Polymorphism database) 是一个公共的核酸多态性的数据库，它是关于单碱基替换以及短插入、删除多态性的资源库。网址：https://wwwSEO靠我.ncbi.nlm.nih.gov/projects/SNP。

1.4 NCBI RefSeq

NCBI RefSeq(Reference Sequence，美国国立生物技术信息中心参考序列库) 是目前世界SEO靠我上最具有权威性的序列数据库。NCBI的参考序列计划（RefSeq）将为中心法则中自然存在的分子，从染色体到mRNA到蛋白提供参考序列标准。RefSeq标准为人类基因组的功能注解提供一个基础。它们为突变SEO靠我分析，基因表达研究，和多态发现提供一个稳定的参考点。

全面的，整合的，无冗余的序列基因组DNA，RNA，蛋白产物是医学、功能、多样性研究的一个基准为基因组注释，基因鉴定和特性描述，突变和多态性分析，表达SEO靠我研究和比较分析提供稳定可靠的参考由NCBI和其合作者维护

RefSeq和genbank的数据有什么区别？

genbank是一个开放的数据库，对每个基因都含有许多序列。很多研究者或者公司都可以自己提交序列，SEO靠我另外这个数据库每天都要和EMBL和DDBJ交换数据。genbank的数据可能重复或者不准。而RefSeq数据库被设计成每个人类位点挑出一个代表序列来减少重复，是NCBI提供的校正的序列数据和相关的信SEO靠我息。数据库包括构建的基因组contig、mRNA、蛋白和整个染色体。refseq序列是NCBI筛选过的非冗余数据库，一般可信度比较高。

为什么RefSeq记录中的基因符号（symbol）有时和相关的GeSEO靠我nBank中的不一样？

RefSeq全部使用官方基因符号。而GenBank是一个公共的序列备份库，由数据发现者提供。有的作者会向相关的物种命名委员会取得官方基因符号，但有的作者没有，所以有时会产生别名。SEO靠我GenBank与Pubmed相同，通过display可以选择显示格式，常用的有GenBank和FASTA两种格式。如果要对基因序列作进一步分析，FASTA格式是很好的选择。FASTA格式仅包括该序列的SEO靠我简要特征，并以ATGC4种碱基列出核苷酸序列，简单明了。而GenBank格式可显示较完整的基因序列记录，反映核苷酸序列的详细信息

1.5 NCBI Entrez

Entrez(http://www.ncbSEO靠我i.nlm.nih.gov/Entrez) 是美国国家生物技术信息中心所提供的在线资源检索器。该资源将GenBank序列与其原始文献出处链接在一起。 Entrez是由NCBI主持的一个数据库检索系统。SEO靠我

一、Entrez系统数据库

有将近38个库，这里仅列举了部分（ https://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi ）

Literature

Books: 在线生SEO靠我物医学图书PubMed 生物医学文献数据库

Health

OMIM : 人类孟德尔遗传数据库

Genomes

SRA：二代测序的原始数据SNP: 单核苷酸多肽性数据库Taxonomy: GenBank 中的物SEO靠我种分类学数据库

Genes

GEO: 基因表达数据库

Proteins

Structure: 大分子三维结构数据库

Chemicals

BioSystems 跟基因，蛋白，化学分子关联的分子通路

Ensembl

EnSEO靠我sembl是由EBI和Sanger共同开发的真核生物基因组注释项目，它侧重于脊椎动物的基因组数据，但也包含了其他生物如线虫，酵母，拟南芥和水稻等，其中，BioMart是用户提取Ensembl基因组数据SEO靠我的强大工具。

Ensembl项目得到的数据均可以通过其基因组浏览器查看，用于支持脊椎动物基因组的比较基因组，进化，序列突变和转录调控方面研究。Ensembl注释基因，多重序列比对，预测结构和收集疾病数据SEO靠我。Ensembl工具包括：BLAST, BLAT, BioMart 和 Variant Effect Predictor (VEP)。

一、简介

Ensembl是由英国Sanger研究所Wellcome基SEO靠我金会（WTSI）和欧洲分子生物学实验室所属分部欧洲生物信息学研究所（EMBI-EBI）共同协作运营的一个项目。这些机构均位于英国剑桥市南部辛克斯顿的威康信托基因组校园（Wellcome Trust GSEO靠我enome Campus）内。

Ensembl计划开始于1999年，人类基因组草图计划完成前的几年。即使在早期阶段，也可明显看出，三十亿个碱基对的人工注释是不能够为科研人员提供实时最新数据的获取的。因此SEO靠我Ensembl的目标是自动的基因组注释，并把这些注释与其他有用的生物数据整合起来，通过网络公开给所有人使用。Ensembl数据库网站开始于July 2000，是一个真核生物基因组注释项目，其侧重于脊椎SEO靠我动物的基因组数据，但也包含了其他生物，如线虫，酵母，拟南芥和水稻等。近年来，随着时间推移，越来越多的基因组数据已经被添加到了Ensembl，同时Ensembl可用数据的范围也扩展到了比较基因组学、变异SEO靠我，以及调控数据。

基因注释的数据来源

最新的基因组数据（大部分是动物）UniProt/Swiss-Prot和UniProt/TrEMBL蛋白序列NCBI RefSeq蛋白和核酸序列EMBL cDNA序列

二SEO靠我、Ensembl可以做什么

查看基因在染色体上的注释查看基因的选择性转录探索某个基因的超过50个物种的同源性和进化树比较物种的全基因组的比对和保守区域查看比对到Ensembl上的芯片序列查看染色体任何一SEO靠我区域的ESTs, clones, mRNA和proteins检查染色体或基因上的SNPs (single nucleotide polymorphisms)查看不同品种（rat,mouse）,种群，品SEO靠我种（狗）的SNPs查看比对到Ensembl基因上的mRNA或蛋白的序列位置上传自己的数据通过BLAST或BLAT来搜索Ensembl基因组中相似的序列通过BioMart导出序列和基因信息VariantSEO靠我 Effect Predictor

三、下载

少量的数据

大多数Ensembl 基因组数据的描述页有“export”功能，可以直接导出这一页的内容。

大的数据集

PERL API http://www.enseSEO靠我mbl.org/info/docs/api/index.html

如果不熟悉Perl语言，可以通过Ensembl REST API http://rest.ensembl.org/

复杂的交叉数据库

BioSEO靠我Mart http://www.ensembl.org/info/data/biomart/index.html

全部的数据集

FTP site http://www.ensembl.org/info/dSEO靠我ata/ftp/index.html

四、其他

Ensembl genes命名

人的基因ENSG Gene ENST Transcript ENSE Exon SEO靠我 ENSP Protein 例如： ENST00000252723

其他物种的基因，例如老鼠(Mus musculus)

ENSMUSG Mouse Gene ENSMUSSEO靠我T Mouse Transcript ENSMUSE Mouse Exon ENSMUSP Mouse Protein

UCSC

下面介绍一下作为生信人必须掌握的三大数据库SEO靠我 NCBI-UCSC-ENSEMBL之一的UCSC。

一、简介

2000年6月22日，UCSC（University of California,Santa Cruz）和其他国际人类基因组计划的成员完成了SEO靠我人基因组组装的第一个草图，并承诺永久对外提供基因组信息。几个星期以后，在2000年7月22日，组装的基因组在网站 ttp://genome.ucsc.edu 呈现出来，并提供了一个在线的查询分析工具USEO靠我CSC Genome Browser。接下来的几年里，该网站不断的发展，如今已包含大量的脊椎动物和模式生物的基因组组装和注释信息，并提供了一系列查看，分析，下载数据的工具。

站点地址：

http://geSEO靠我nome.ucsc.edu/Europe: http://genome-euro.ucsc.eduAsia: http://genome-asia.ucsc.edu

数据库特点：

给浏览基因组数据提供了可SEO靠我靠和迅速的方式。

整合了大量的基因组注释数据，约有一半的注释信息是UCSC通过来自公开的序列数据计算得出，另外一半来自世界各地的科学工作者。本身并不下任何结论，而只是收集各种相关信息供用户参考。

支持数SEO靠我据库检索和序列相似性搜索。

二、UCSC可以干什么

UCSC建立的初衷是为了更好的呈现基因组数据，方便人们查看与研究。因此在呈现基因组碱基序列的同时，也结合了注释信息，例如known genes, preSEO靠我dicted genes, ESTs, mRNAs, CpG islands, assembly gaps and coverage, chromosomal bands, mouse homologSEO靠我ies等等。所以用户既可以用他们提供的数据库里面的数据，也可以上传自己的数据来做研究。围绕着这样的初衷，他们设计

Genome Browser 整合基因组数据和各种注释数据的在线查看系统Blat 序列比SEO靠我对工具Table Browser 将文本文件转化为数据库可以识别的文件Genome Graphs 上传和呈现基因组数据的工具，例如genome-wide SNP association studiesSEO靠我,

linkage studies 和homozygosity mappingGene Sorter 各种形式的呈现基因的表达，同源等信息以及相互关系Gene Interactions 基因之间的交互关SEO靠我系In-Silico PCR 查看一对引物在基因组中的位置VisiGene 查看基因在显微镜下的原位图LiftOver 基因组版本的转换

Nucleic Acids Research(NAR) 每年会整SEO靠我理重要的生物信息数据库

参考于：http://www.biotrainee.com/jmzeng/book/basic/database.html

“SEO靠我”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题，请与我们联系删除或处理，客服邮箱：html5sh@163.com，稿件内容仅为传递更多信息之目的，不代表本网观点，亦不代表本网站赞同其观点或证实其内容的真实性。

上一篇：串口通信-MSComm控件使用详解
下一篇：Linux系统时间偏差的纠正 adjtimex

生物信息学三大数据库NCBI-ENSEMBL-UCSC

最新发布