0
点赞
收藏
分享

微信扫一扫

跟着ENCODE学习ATAC文库的质控标准


ENCODE称之为基因组百科全书,该数据库包含了基因组学,转录组学,表观遗传学等许多组学的数据。在提供公共数据的同时,还开源了许多组学数据分析的pipeline,当然也包含了ATAC数据分析的pipeline, 对应的网址如下

​​https://www.encodeproject.org/atac-seq/​​

目前最新版的pipeline网址如下

​​https://github.com/ENCODE-DCC/atac-seq-pipeline​​

ENCODE不仅给出了pipeline, 同时还根据处理ATAC数据的经验,给出了质控的标准,非常值得参考。质控标准有以下几点

  1. 实验设计时需要考虑生物学重复,每组至少2个生物学重复,对于实现材料有限,无法达到2个生物学重复的样本,也要设计至少2个技术重复
  2. 每个样本需要至少25M的有效序列,这里的有效序列指的是去除PCR重复,去除线粒体之后的序列,单位是fragments。对于单端测序而言,需要至少25M的reads, 对于双端测序而言,需要至少50M的reads
  3. mapping比例,即比对上参考基因组的reads所占比例大于95%, 当然80%以上也可以接受
  4. 文库复杂度, 和chip_seq类似,采用PBC1, PBC2, NRF共3个指标来描述文库复杂度,对应的标准如下

    跟着ENCODE学习ATAC文库的质控标准_数据
    关于文库复杂度的解释可以参考这篇文章
    ​​chip_seq质量评估之文库复杂度​​
  5. 每个样本的peak数量要在15万以上,10万以上是最低标准;使用IDR评估生物学重复样本的一致性,经过IDR处理后的peak为IDR peak,同时也会给出一个IDR score值, IDR peak的数量要在7万以上,5万是最低标准,IDR score的值应小于2
  6. peak结果中要存在NFR和mononucleosome peak区域,NFR peak指的是长度小于1个核小体单位长度的peak区域,1个核小体的DNA长度为146bp, NFR peak长度小于146b;ppmononucleosome peak指的是只跨越了1个核小体的peak, 长度在1个到2个核小体单位长度之间,即146到292bp之间,考虑两个核小
  7. peak区域的reads所占比例,即FRIrScore值应该大于0.3, 最低标准是0.2
  8. TSS Enrichment soce,称之为TSS富集分数,就是计算所有TSS位点测序深度的平均值,这个数值的大小与所用的参考基因组有关系,不同参考基因组对应的阈值标准如下

跟着ENCODE学习ATAC文库的质控标准_数据分析_02

高质量的文库是确保分析结果准确的前提和保障,参考以上几个指标,有助于我们判断ATAC文库的质量。


·end·


跟着ENCODE学习ATAC文库的质控标准_复杂度_03

一个只分享干货的

生信众号





举报

相关推荐

0 条评论