ucsc数据库使用说明,ucsc数据库下载TCGA数据
https://github.com/Wy2160640/cruzdb
克鲁兹加州大学基因组数据库是注释,调节和变异以及越来越多的分类群的各种数据的重要资源。该库旨在简化数据的利用,以便我们可以进行复杂的分析,而无需采用易于操作,容易出错的操作。作为动机,以下是一些功能的示例:
从cruzdb导入基因组g=基因组(db= hg18 )MUC5B=g . ref基因。filter _ by(name 2= MUC5B ).first()mu C5 brefgene(chr 11:MUC5B:1200870-1239982)MUC5B。钢绞线 #前四个内含子MUC5B。内含子[:4][(1200999L,1203486L),(1203543L,1204010L),(1204082L,1204420L),(1204682L,1204836Lmuc5b)。外显子[:4][(1200870L,1200999L),(1203486L,1203543L),(1204010L,1204082L),(1204420L,1204682L)]#注意,其中一些不是编码的,因为它们是cdsStart muc5b。CDSs start 1200929 l # 5 UTR的范围muc5b.utr5(1200870L,1200929L)#我们可以使用:muc5b.cds[:4][(1200929L,1200999L),(1203486L,1203543L),(1204010L,1204082L),(1204420L,1204682 l)]# CDS来获取(前四个)实际信用违约互换.]抄本=g .已知基因。filter _ by(name= UC 001 aa。2 )。第一个()转录者。is _ codingFalse #将基因组坐标转换为局部坐标。转录本。定位(转录本。txStart)0L#或定位到互补DNA(complementary DNA)位置打印抄本。本地化(抄本。cdsStart,cdna=True)None
命令行调用
python-m cruzdb hg18输入。bed ref基因cpgIslandExt使用版本hg18中的refGene和cpgIslandExt表注释间隔。数据框.是这样的。我们可以从桌子上得到一个:
数据帧( cpgIslandExt )。columns # doctest:ellipsindex([chrom,chromStart,chromEnd,name,length,cpgNum,gcNum,perCpg,perGc,observer XP],dtype=object)通过将refGene更改为知道吗,可以使用已知基因注释重复上述所有操作。而且,它可以很容易地完成一组基因。
空间的可以使用k近邻,上游和下游搜索。上行和下游搜索使用查询功能的链来确定方向:
最近的( refGene , chr1 ,9444,9555,k=6)up _ list=g .上游( ref gene , chr1 ,9444,9555,k=6)down _ list=g .下游( ref gene , chr1 ,9444,9555,k=6)镜像以上使用克鲁兹加州大学的关系型数据库接口。现在可以通过以下方式将任何表从克鲁兹加州大学镜像到本地数据库数据库:
如果OS。路径。exists(/tmp/u . db ):OS。unlink(/tmp/u . db )g=基因组( hg18 )GS=g . mirror([ chromInfo ], sqlite:tmp/u.db )然后用作:
GS。chrominfoclass cruzdb。sqlsoup。“铬信息”代码大多数每行功能都在特征类的cruzdb/models.py中实现。如果要向功能添加内容(如现有feature.utr5),请在此处添加。
这些表使用关系反映并映射到cruzdb/__ init__ .巴拉圭中基因组类的__getattr__方法中,所以像这样调用:
基因组调用__getattr__方法,将表银设置为知道吗,然后反映该表,并返回父类为特征和关系的声明性_基础的对象。
贡献要开始编码,获取一些克鲁兹加州大学表的副本可能很有礼貌,以免使克鲁兹加州大学服务器过载。你可以运行类似的东西:
基因组(“hg18”).镜像([refGene , cpgIslandExt , chromInfo , knownGene , kgXref], sqlite:tmp/hg18.db )然后连接将是这样的:
g=基因组( sqlite:tmp/hg18.db )转载于:https://www。cn博客。com/yahengwang/p/10195614。超文本标记语言