GenomeScope是基因组评估的有效工具,但是之前只能够预测二倍体基因组,现在使用GenomeScope2则可以预测多倍体(至多六倍体)及其倍性。
安装
1
2
3
|
git clone https://github.com/tbenavi1/genomescope2.0.git
cd genomescope2.0/
Rscript install.R
|
注意,在安装前需要确认当前用户对目前环境中R的libraries安装路径存在写入权限。
1
2
3
4
5
|
local_lib_path = "~/R_libs/"
install.packages('minpack.lm', lib=local_lib_path)
install.packages('argparse', lib=local_lib_path)
install.packages('.', repos=NULL, type="source", lib=local_lib_path)
|
如此,则应该修改其中的local_lib_path
为当前可用的R_LIBS
路径。
对于大多数用户,如果没有写入权限,那么可以直接新建目录~/R_libs
,并在Renviron
中声明
1
2
|
mkdir ~/R_libs
echo "R_LIBS=~/R_libs/" >> ~/.Renviron
|
使用
首先,使用KMC或jellyfish获取histogram_file
获取k-mer的频率直方图
KMC
1
2
3
4
5
6
|
mkdir tmp
ls *.fastq > FILES
##-k设定k-mer长度,-t设定使用线程数,-m设定使用内存大小,-ci设定使用k-mer count的下界,-cs设定使用k-mer count的上界。
kmc -k21 -t10 -m64 -ci1 -cs10000 @FILES reads tmp/
kmc_tools transform reads histogram reads.histo -cx10000
|
jellyfish
1
2
|
jellyfish count -C -m 21 -s 1000000000 -t 10 *.fastq -o reads.jf
jellyfish histo -t 10 reads.jf > reads.histo
|
命令行运行GenomeScope
将genomescope2.0
加入环境变量后,即可直接运行
1
|
genomescope.R -i histogram_file -o output_dir -k k-mer_length
|
网页运行GenomeScope
将histogram_file
上传至在线服务,即可。
参考来源
https://bioinformaticsworkbook.org/dataAnalysis/GenomeAssembly/genomescope.html