软件安装

BUSCO的手动安装并不困难,但是BUSCO依赖tblastnaugustus,而augustus的安装比较复杂,因此选择使用conda自动化安装应当是首选。conda的安装参照后文。

1
conda install busco

下载数据库

1
2
3
cd ~/database/busco
wget http://busco.ezlab.org/v2/datasets/euarchontoglires_odb9.tar.gz
tar -zxvf eukaryota_odb9.tar.gz

软件使用

1
run_BUSCO.py -i yourassemble.fa -o yourassemble_busco -m genome -l ~/database/busco_database/hymenoptera_odb9/ -c 8 

参数说明:

1
2
3
4
5
-i|--in: 输入文件
-o|--out: 输出文件、文件夹前缀
-l|--lineage: 数据库的路径
-m|--mode: 运行模式,geno|tran|prot
-c|--cpu: 线程数,默认1.

结果解读

BUSCO 的结果一看就懂,主要看统计文件run_busco/short_summary_busco.txt 。我们的测试数据数据量太少,下面放一个真实项目的数据。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
$ cat run_busco/short_summary_busco.txt 
# 省略若干行
# Summarized benchmarking in BUSCO notation for file longest_isoform.fasta
# BUSCO was run in mode: tran

    C:89.0%[S:49.9%,D:39.2%],F:4.4%,M:6.5%,n:429

    382    Complete BUSCOs (C)
    214    Complete and single-copy BUSCOs (S)
    168    Complete and duplicated BUSCOs (D)
    19    Fragmented BUSCOs (F)
    28    Missing BUSCOs (M)
    429    Total BUSCO groups searched

真实项目中,Complete BUSCOs (C) 的比例通畅都能达到 80% 以上。不过如果低于这个值,也未必有问题,还是要根据实际项目情况判断。除了跟经验值比较。更有意义的是使用不同软件、参数多组装几个版本,挑选最优版。

可视化

如果有多个版本,就可以画这样一张图,分析哪个版本更优。

1
2
3
4
5
6
7
8
mkdir my_summaries 
#拷贝多个版本的结果到同一个目录中,注意重命名 
cp run_SPEC1/short_summary_SPEC1.txt my_summaries/ 
cp run_SPEC2/short_summary_SPEC2.txt my_summaries/ 
cp run_SPEC3/short_summary_SPEC3.txt my_summaries/ 
cp run_SPEC4/short_summary_SPEC4.txt my_summaries/ 
cp run_SPEC5/short_summary_SPEC5.txt my_summaries/ 
python BUSCO_plot.py –wd my_summaries评价质量可以使用BUSCO自带的脚本用R作图,反映short_report中的内容,按照预测出基因的比例进行比较。

参考来源: http://genek.tv/article/29