Aging LTR insertion

使用LTRharvest与c计算LTR-RTs在基因组中的插入时间。

LTRharvest

LTRharvest是Genome tools中进行de novo识别LTR的组件。不依赖于序列相似性，根据LTR-RT的结构特点进行识别。

1
2
3
4
5
6


#LTRharvest并不会根据输入的序列名进行命名，而根据序列在fasta文件中的顺序在输出中命名为seq0，seq1...
#因此可手动将输入文件中的scaffold整合为一条，方面后续根据gff文件输出LTR序列

gt suffix -db <path-to-your-genome> -index <genome-index>
gt ltrharvest -index <genome-index> -motif TGCA -motifmis 1 -gff3 out/genome.harvest.gff -out out/genome.harvest.out > genome.harvest.scn
gt ltrharvest -index <genome-index> -gff3 out/genome.harvest.nonTGCA.gff -out out/genome.harvest.nonTGCA.out > genome.harvest.nonTGCA.scn

得到输出的结果中往往存在着数千条LTR-RTs，但其中存在着许多的假阳性。距离相近的其他类型重复序列，若其相似性较高，往往也会被识别为LTR-RT。LTR-retriever能够过滤这一结果，降低假阳性，得到完整的LTR-RT。

LTR-retriever

LTR-retriever能够识别LTRharvest, LTR_Finder或MGEScan_LTR的输出，对结果进行过滤，得到完整的LTR-RT。 LTR-retriever基于的假设是，LTR-RT在新插入基因组序列时，两端的LTR序列是相同的，同时，LTR序列两端的序列是不同的，以此来判断LTR序列的边界。 LTR-retriever计算LTR序列间的距离，基于物种的突变速率（默认使用水稻的）计算LTR的插入时间。基于bin/LTR.indefinder.pl使用JK法计算。

计算DNA序列间的距离

最简单的算法是Jukes-Cantor 模型，默认ACGT四种碱基之间的替换速率相同。 $$ d_{AB}=-\frac{3}{4}\ln\left( 1-\frac{4}{3}f_{AB}\right) $$

where fAB is the dissimilarity (fraction of observed differences) between sequences A and B, and dAB is the estimated evolutionary distance (fraction of expected substitutions) between sequences A and B.

实际上，由于嘧啶与嘌呤之间的替换比同种碱基之间的替换更为更为困难，将transitions与transversions分开考虑，则使用的是Kimura 2-parameter 模型 $$ d_{AB}=-\frac{1}{2}\ln \left [ \left ( 1-2P-Q \right )\sqrt{1-2Q} \right ] $$

where P is the fraction of sequence positions differing by a transition and Q is the fraction of sequence positions differing by a transversion.

计算LTR插入时间

基于LTR-RT两端5'LTR与3'LTR序列之间的距离K，我们可以计算该LTR-RT在插入基因组后所经历的时间T。 $$ K=-\frac{1}{2}\ln \left [ \left ( 1-2P-Q \right )\sqrt{1-2Q} \right ] $$

其中，P为transitions的占比，Q为transversions的占比。

基于$T=\frac{K}{2\mu} $我们可以很容易地由K值计算得到T，其中μ为目标物种的自然变异速率（水稻的变异速率为1.3e-8 bp-1·year-1 ）。

参考来源

https://github.com/SIWLab/Lab_Info/wiki/Ageing-LTR-insertions

http://bioinformatics.psb.ugent.be/downloads/psb/Userman/treecon_distance.html

计算基因组中LTR的插入时间

文章目录