用python学生信之实践四，如何提取基因信息ncRNA

今天来探讨以下如何提取基因信息

数据：稻瘟病菌ncRNA
什么是ncRNA？ncrna即非编码RNA（Non-coding RNA）是指不编码蛋白质的RNA，包括rRNA，tRNA，snRNA，snoRNA 和microRNA 等多种已知功能的 RNA，还包括未知功能的RNA。这些RNA的共同特点是都能从基因组上转录而来，但是不翻译成蛋白，在RNA 水平上就能行使各自的生物学功能了。非编码RNA 从长度上来划分可以分为3类：小于50 nt，包括microRNA，siRNA，piRNA；50 nt到500 nt，包括rRNA，tRNA，snRNA，snoRNA，SLRNA，SRPRNA 等等；大于500 nt，包括长的mRNA-like 的非编码RNA，长的不带polyA 尾巴的非编码RNA等等（百度百科）。
数据的获取：http://fungi.ensembl.org/info/website/ftp/index.html 真菌数据库

下载后我们将其放在ncrna文件夹里，用linux系统命名操作为

$ mkdir ncrna

复制代码

$ mv Magnaporthe_oryzae.MG8.ncrna.fa.gz ./ncrna/Mo_ncrna.gz #重命名

复制代码

$cd ncrna/;ls

复制代码

Mo_ncrna.gz

复制代码

$gzip -d Mo_ncrna.gz # 解压

复制代码

查看一下文件内容

$ cat Mo_ncrna |head -n 10

复制代码

可以看到标题为> 后面的内容，下面是rna序列，典型的fasta格式
提取标题，查看有多少个ncRNA

$cat Mo_ncrna |grep '>' >title.txt #将标题存在title.txt文件

复制代码

$wc -l title.txt #查看有多少行

复制代码

327 title.txt

复制代码

数据库里有327个ncRNA。

下面用python脚本统计每个ncRNA的长度和类型。

f = open('ncrna.txt','w')

复制代码

for line in open('Mo_ncrna','r'):

复制代码

if '>' in line:

复制代码

f.write('\n'+line.split(' ')[0]+','+ line.split(' ')[4]+','+line.split(' ')[7]+ '\n')

复制代码

else:

复制代码

f.write(line.strip())

复制代码

f.close()

复制代码

输出为excel文件

f = open('ncran_excel.csv','w')

复制代码

for line in open('ncrna.txt','r'):

复制代码

if '>' in line:

复制代码

f.write(line.strip()+',')

复制代码

else:

复制代码

f.write(line.strip() +',' +str(len(line))+ '\n')

复制代码

f.close()

复制代码

这样我们就把稻瘟菌中的ncRNA整理出来了。