Aging LTR insertion

使用LTRharvestc计算LTR-RTs在基因组中的插入时间。

LTRharvest

LTRharvestGenome tools中进行de novo识别LTR的组件。不依赖于序列相似性,根据LTR-RT的结构特点进行识别。

1
2
3
4
5
6
#LTRharvest并不会根据输入的序列名进行命名,而根据序列在fasta文件中的顺序在输出中命名为seq0,seq1...
#因此可手动将输入文件中的scaffold整合为一条,方面后续根据gff文件输出LTR序列

gt suffix -db <path-to-your-genome> -index <genome-index>
gt ltrharvest -index <genome-index> -motif TGCA -motifmis 1 -gff3 out/genome.harvest.gff -out out/genome.harvest.out > genome.harvest.scn
gt ltrharvest -index <genome-index> -gff3 out/genome.harvest.nonTGCA.gff -out out/genome.harvest.nonTGCA.out > genome.harvest.nonTGCA.scn

得到输出的结果中往往存在着数千条LTR-RTs,但其中存在着许多的假阳性。距离相近的其他类型重复序列,若其相似性较高,往往也会被识别为LTR-RT。LTR-retriever能够过滤这一结果,降低假阳性,得到完整的LTR-RT。

LTR-retriever

LTR-retriever能够识别LTRharvest, LTR_FinderMGEScan_LTR的输出,对结果进行过滤,得到完整的LTR-RT。 LTR-retriever基于的假设是,LTR-RT在新插入基因组序列时,两端的LTR序列是相同的,同时,LTR序列两端的序列是不同的,以此来判断LTR序列的边界。 LTR-retriever计算LTR序列间的距离,基于物种的突变速率(默认使用水稻的)计算LTR的插入时间。基于bin/LTR.indefinder.pl使用JK法计算。

计算DNA序列间的距离

最简单的算法是Jukes-Cantor 模型,默认ACGT四种碱基之间的替换速率相同。 $$ d_{AB}=-\frac{3}{4}\ln\left( 1-\frac{4}{3}f_{AB}\right) $$

where fAB is the dissimilarity (fraction of observed differences) between sequences A and B, and dAB is the estimated evolutionary distance (fraction of expected substitutions) between sequences A and B.

实际上,由于嘧啶与嘌呤之间的替换比同种碱基之间的替换更为更为困难,将transitions与transversions分开考虑,则使用的是Kimura 2-parameter 模型 $$ d_{AB}=-\frac{1}{2}\ln \left [ \left ( 1-2P-Q \right )\sqrt{1-2Q} \right ] $$

where P is the fraction of sequence positions differing by a transition and Q is the fraction of sequence positions differing by a transversion.

计算LTR插入时间

基于LTR-RT两端5'LTR3'LTR序列之间的距离K,我们可以计算该LTR-RT在插入基因组后所经历的时间T。 $$ K=-\frac{1}{2}\ln \left [ \left ( 1-2P-Q \right )\sqrt{1-2Q} \right ] $$

其中,P为transitions的占比,Q为transversions的占比。

基于\(T=\frac{K}{2\mu} \)我们可以很容易地由K值计算得到T,其中μ为目标物种的自然变异速率(水稻的变异速率为1.3e-8 bp-1·year-1 )。

参考来源

https://github.com/SIWLab/Lab_Info/wiki/Ageing-LTR-insertions

http://bioinformatics.psb.ugent.be/downloads/psb/Userman/treecon_distance.html