cog功能注释,GO注释,KEGG注释不一致,go语言 注解

  cog功能注释,GO注释,KEGG注释不一致,go语言 注解

  参考:https://www。cn博客。com/xiaojikuaipao/p/7190779。html https://blog.csdn.net/ygyxl/article/details/79742751

  去注释主要有两种方法:

序列相似性比对(BLAST)

和结构域相似性比对(InterProScan)

  

1. 将基因序列与swiss-prot蛋白质数据库进行 BLAST 比对,得到如下结果:

  c00 _ G1 _ i1 rnf 13 _老鼠52.00 50 23 1 17 166 240 288 2e-11 65.5

  c01 _ G1 _ i1 RS25 _ neu Cr 78.72 94 20 0 375 94 1 94 1e-32 116

  其中,第二列为瑞士港口蛋白质数据库序列的ID(UniProtKB ID)。

  

2. 注释

  从ftp://ftp.pir.georgetown.edu/databases/idmapping下载idmapping.tb.gz,该文件共有22 列(制表键分割),如:

  q 6 gzx 4 001 r _ frg 3g 2947773 YP _ 03 81941549;49237298 pf 04947 GO:0006355;GO:0046782;GO:0006351 uniref 100 _ q6 gzx 4 uniref 90 _ q6 gzx 4 uniref 50 _ q6 gzx 4 UPI 00003 b0fd 4 654924 15165820 ay 548484 aat 09660.1

  UniProtKB登录号UniProtKB ID EntrezGene参考序列NCBI GI号PDB Pfam GO PIR SF IPI uniref 100 uniref 90 uniref 50 UniParc PIR-PSD登录号美国国家生物技术信息中心分类学MIM uni gene Ensembl PubMed ID EMBL/GenBank/DDBJ EMBL蛋白质_ ID

  根据文件idmapping.tb.gz,将爆炸的结果,通过UniProtKB ID,将第八列的去号注释到对应的基因上,

  python uniprot 2 go _ annotate。py idmapping.tb.gz启动输出文件

  结果如下:

  c93619_g2_i1 GO:0005506,GO:0016705,GO:0016021,GO:0004497,GO:0020037

  c93619_g2_i3 GO:0009733,GO:0020037,GO:0044550,GO:0016021,GO:0016020,GO:0016711,GO:0009813,GO:0005789,GO:0005506

  c70056_g1_i1 GO:0005737,GO:0019722,GO:0071889,GO:0005829,GO:0001077,GO:0006357,GO:009720,GO:000978,GO:0046872,GO:0005634,GO:0006874

  c93748_g1_i1 GO:0006729,GO:0008124

  转载于:https://www。cnblogs。com/Shawn 2018/p/8667968。超文本标记语言

cog功能注释,GO注释,KEGG注释不一致,go语言 注解