生物信息分析,首先要知道基因组上的序列成分(sequence components),这是一个直观的概念。人基因组中有~20,000蛋白质编码序列,占整个基因组的1.5%。它们被非编码的intron间隔,分散在基因组中,二者合起来占基因组的26%。剩余的是一些重复序列,占基因组的绝大部分
若考虑线粒体DNA:
首先,所有序列分为conding sequence和non-coding sequence;后者主要包括repeated sequence和introgeic sequence。
Repeated sequence主要有三大类:
1.Terminal repeats
2.Tandem repeats
- Satellite DNA - 一般发现于centromeres和heterochromatin
- Minisatellite - 重复单元10-60bp,基因组上广泛分布,包括centromeres
- Microsatellite - 重复单元少于10bp,包括telomeres(6-8bp的重复单元)
3.Interspersed repeats(aka. interspersed nuclear elements)
- Transposable elements (~45% of human genome)
- DNA transposons
- retrotransposons
- LTR-retrotranposons (HERVs)
- non LTR-retrotranposons
- SINEs (Short Interspersed Nuclear Elements)
- LINEs (Long Interspersed Nuclear Elements)
- SVAs
In primates, the majority of LINEs are LINE-1 and the majority of SINEs are Alu’s. SVAs are hominoid specific.
In prokaryotes, CRISPR are arrays of alternating repeats and spacers
细说Transposable elements
人类似乎半数的DNA都是转座子,占整个基因组的40-50%,这些跳跃基因会集结在一起,形成我们体内没有功能的垃圾DNA(junk DNA)。
跳跃方式是一个基本的区别:
- DNA transposon: 先剪下再贴上(cut and paste),直接剪下DNA,插入另一段序列
- Retrotransposon: 先复制再贴上(copy and paste),先将DNAA转录成RNA,再将RNA逆转录出一份DNA ,最后再将DNA插入某一段序列中
乳动物基因组中,大多数转座子都是复制-粘贴型,而且大多都已经无法再移动成为了“化石”。尽管目前人们已在哺乳动物中发现了一些残存的剪切-粘贴型转座子,但它们全都是不活跃的。转座子可能是过去病毒感染的遗留物,从某个角度看来,艾滋病毒就有点像是个转座子。好多转座子是Exogenous DNA。
Retrotransposon(又称为内源性逆转录病毒/HERV)与逆转录病毒:
相关知识点:
- Transposable element在进化论中的意义
- Transposable element激活和失活
- 三大类病毒表达载体之一(Adenoviral, Retroviral, Lentiviral).