RNA二级结构预测系列:基础篇
1. RNA的结构
1.1 DNA-RNA-蛋白质
1.2 RNA的三级结构
RNA序列由四种碱基组成,分别是腺嘌呤,胞嘧啶,鸟嘌呤和尿嘧啶。
这四种碱基组成的序列就是RNA序列,也叫做RNA的一级结构。
2D平面上由碱基配对形成的结构称之为RNA的二级结构,
而将3D空间上形成的立体结构称之为RNA的三级结构。
四种嘌呤:A/C/G/U
2. RNA二级结构的常见表示方法
2.1 CT (Connectivity Table) 文件表示法
CT文件首行包括:
- the total number of nucleotides in the structure,
- the energy associated with the fold,
- and the name of the file.
其他行中,每行包含6列数据,分别为:
- Column 1: List of the nucleotides from 1 to N (N = total number of nucleotides).
- Column 2: List of the type of nucleotide (A, G, U, or C).
- Column 3: List of the nucleotides increasing from zero to N - 1.
- Column 4: List of the nucleotides from 2 to N.
- Column 5: List of the nucleotides that are paired to those listed in increasing order. Any zeros in the fifth column indicate that the particular nucleotide is unpaired.
- Column 6: A repeat of column 1.
2.2 点括号(Dot Bracket)法
点括号表示法就是用点和成对的括号来表示RNA的二级结构信息。
RNA序列中的未产生碱基互补配对的自由碱基用“.”表示,
而形成互补碱基对的两个碱基分别用一对“(”、“)”表示。
碱基对中相对靠近5’端的碱基用“("进行表示,碱基对中相对靠近3’端的碱基用“)”进行表示。
2.3 平面图与matrix representations(矩阵表示)
以下图为例:
参考文献
[1] E2Efold Slides
[2] E2Efold Paper
[3] 投身AI战疫前你需要知道的前置知识
[4] Github: UFold
[5] CMU RNA Lecture
[6] 百度AI studio:螺旋桨RNA结构预测竞赛:Unpaired Probability Prediction
[7] http://www.biomath.nyu.edu/biomath/oldrag/analysis/program_description.html