cog功能注释,GO注释,KEGG注释不一致,go语言 注解
参考:https://www。cn博客。com/xiaojikuaipao/p/7190779。html https://blog.csdn.net/ygyxl/article/details/79742751
去注释主要有两种方法:
序列相似性比对(BLAST)
和结构域相似性比对(InterProScan)
1. 将基因序列与swiss-prot蛋白质数据库进行 BLAST 比对,得到如下结果:
c00 _ G1 _ i1 rnf 13 _老鼠52.00 50 23 1 17 166 240 288 2e-11 65.5
c01 _ G1 _ i1 RS25 _ neu Cr 78.72 94 20 0 375 94 1 94 1e-32 116
其中,第二列为瑞士港口蛋白质数据库序列的ID(UniProtKB ID)。
2. 注释
从ftp://ftp.pir.georgetown.edu/databases/idmapping下载idmapping.tb.gz,该文件共有22 列(制表键分割),如:
q 6 gzx 4 001 r _ frg 3g 2947773 YP _ 03 81941549;49237298 pf 04947 GO:0006355;GO:0046782;GO:0006351 uniref 100 _ q6 gzx 4 uniref 90 _ q6 gzx 4 uniref 50 _ q6 gzx 4 UPI 00003 b0fd 4 654924 15165820 ay 548484 aat 09660.1
UniProtKB登录号UniProtKB ID EntrezGene参考序列NCBI GI号PDB Pfam GO PIR SF IPI uniref 100 uniref 90 uniref 50 UniParc PIR-PSD登录号美国国家生物技术信息中心分类学MIM uni gene Ensembl PubMed ID EMBL/GenBank/DDBJ EMBL蛋白质_ ID
根据文件idmapping.tb.gz,将爆炸的结果,通过UniProtKB ID,将第八列的去号注释到对应的基因上,
python uniprot 2 go _ annotate。py idmapping.tb.gz启动输出文件
结果如下:
c93619_g2_i1 GO:0005506,GO:0016705,GO:0016021,GO:0004497,GO:0020037
c93619_g2_i3 GO:0009733,GO:0020037,GO:0044550,GO:0016021,GO:0016020,GO:0016711,GO:0009813,GO:0005789,GO:0005506
c70056_g1_i1 GO:0005737,GO:0019722,GO:0071889,GO:0005829,GO:0001077,GO:0006357,GO:009720,GO:000978,GO:0046872,GO:0005634,GO:0006874
c93748_g1_i1 GO:0006729,GO:0008124
转载于:https://www。cnblogs。com/Shawn 2018/p/8667968。超文本标记语言