使用SERF鉴定端粒序列
文章目录
端粒重复序列
端粒是染色体末端的一端核酸序列,起着保护染色体末端免于降解,防止与相邻的染色体错误融合的作用。其名称来源于希腊语 τέλος (end)和μέρος (part) 。对于脊椎动物,端粒的序列是AGGGTT
,其对应的互补序列就是TCCCAA
,还有这一个单链的TTAGGG
末尾。这段TTAGGG
的序列在人类基因组中约重复2500次。人类的平均端粒长度由出生时的约11 kb,在老年时降至短于4 kb. 而男性端粒的平均缩短速度要快于女性。
在染色体复制时,DNA复制酶在染色体末端不能继续复制,因此在每次复制时,染色体的末端都会缩短。这是由于冈崎片段需要RNA引物连接到后随链的前端。在细胞分裂时,端粒是染色体末端的缓冲区;防止基因被截短。端粒本身被端粒保护蛋白复合体,还有端粒DNA编码的RNA覆盖。
不同物种的端粒序列不同,目前已知的端粒序列数据在端粒数据库中可以访问,目前的版本在2018年8月更新。
预测物种的端粒序列
对于一个端粒序列仍然未知的物种,我们怎么发现其端粒的序列呢?
在最近发表的一篇文章指出,目前由bioserf.org提供的在线服务 sequence repeat finder (SERF) 可以进行。用户提供全基因组组装的结果(FASTA 格式)或二代测序的短读长数据(FASTQ 格式)即可。用户在注册后即可使用。
输入参数
Telomere Identification Protocol | |
---|---|
FASTQ | Input Reads from NGS |
FASTA | Input Assembled Contigs. |
Contiguousall | Analysis Type |
TG | BaseType (must contain these base types in the identified repeats) |
2 | BaseTypeMincount (must have atleast 2 of either type in the identified repeat) |
3 | MinRepeats to treat as tandem |
5 | MinBPSize of repeat motif |
15 | MaxBPSize of repeat motif |
90% | MatchQuality (Tandem repeats to cover atleast 90% of the entire read. Iterate with lower figure until repeats are identified.) |
2000 | Base count to split large assembled contigs in FASTA file for faster results. Defaults to 0 for FASTQ reads. |
Yes | Permutate |
Yes | Exclude Homopolymers |
Yes | Exclude Supersets |
Yes | List Cluster Totals |
Notes | For large input data (1GB+), analyze in smaller minbp-maxbp chunks 7-10, 11-20, 21-30 etc (instead of 7-60) to see incremental results |
输出结果
这是示例公共数据中洋葱的输出结果
|
|
参考来源
https://www.future-science.com/doi/full/10.2144/btn-2018-0057#