nf-core一步完成RNA-seq上游分析
文章目录
nf-core
使用nextflow
作为流程管理工具,搭建了一系列分析流程,现已发表在Nat Biotechnol。其中,最为常用,关注也最多的自然是RNA-seq的流程。简单的解决方案可拉到最后。
#安装
每个nf-core
的流程都支持3种配置方式,docker
, singularity
与conda
. 使用这3种方式都可以配置,但是,前两者的安装都需要root权限,而作为普通用户,你的选择可能还是只有可爱的conda
了。
Nextflow
首先需要环境中java
的版本在1.8以上,然后安装到用户自定义的路径中,以方便后续的升级管理。
|
|
或者,通过Bioconda安装
|
|
Nextflow的升级就很简单, nextflow self-update
或conda update nextflow
(取决于你的安装方式)即可。
流程工具
Docker,Singularly或者Conda,前两者以容器形式运行,可重复性好,但其安装需要管理员权限。
首先,需要确认你已经安装好了所需要的软件环境(Nextflow + Docker / Singularity / Conda),尝试Nextflow的"hello world”
|
|
流程工具的运行需要联网,会自动运行最新的流程配置。如果需要离线运行指定流程,可以参考官方提供的说明。
|
|
测试运行nf-core/rnaseq
流程。
注意,请配置好conda
的环境,即~/.condarc
,否则conda的连接速度可能会很慢,导致报错。推荐的源配置如下:
|
|
#参考基因组
许多流程的序列比对,注释等流程都会用到参考基因组文件。nf-core
默认可以使用Illumina iGenomes中支持物种的参考基因组。但是,如果需要使用自定义的参考基因组,也可以使用--fasta
与--gtf
参数,传递参考基因组序列与注释文件。
其中,注释文件的推荐格式为gtf
,要求其中有gene_biotype
属性,指定基因为protein_coding
, lincRNA
, rRNA
或其他。
也可提供一个gff
文件,但是其会被先转换为gtf
文件。
gtf文件的格式最好以ENSEMBL版本为参考。若为GENCODE格式,则需提供--gencode
参数注明。
其他
Nextflow
的活动流程要求其进程需要一直运行,直至流程完成。因此,推荐将其运行在screen
/tmux
的后台环境中,或者投递到集群的作业系统中。
同时,官方还推荐在系统环境配置中限制Nextflow
Java虚拟机的内存占用,向~/.bashrc
或~/.bash_profile
中添加
|
|
快速开始
一个命令完成RNA-seq的方式如下:
|
|
如果RNA-seq的是链特异性文库,可以手动指定文库的方向,如--reverseStranded
指定在HISAT2比对时指定--rna-strandness RF
参考来源
https://github.com/nf-core/rnaseq/blob/master/docs/usage.md#transcript-ids-in-fasta-files