跟着ENCODE学习ATAC文库的质控标准-CFANZ编程社区

ENCODE称之为基因组百科全书，该数据库包含了基因组学，转录组学，表观遗传学等许多组学的数据。在提供公共数据的同时，还开源了许多组学数据分析的pipeline，当然也包含了ATAC数据分析的pipeline, 对应的网址如下

https://www.encodeproject.org/atac-seq/

目前最新版的pipeline网址如下

https://github.com/ENCODE-DCC/atac-seq-pipeline

ENCODE不仅给出了pipeline, 同时还根据处理ATAC数据的经验，给出了质控的标准，非常值得参考。质控标准有以下几点

实验设计时需要考虑生物学重复，每组至少2个生物学重复，对于实现材料有限，无法达到2个生物学重复的样本，也要设计至少2个技术重复
每个样本需要至少25M的有效序列，这里的有效序列指的是去除PCR重复，去除线粒体之后的序列，单位是fragments。对于单端测序而言，需要至少25M的reads, 对于双端测序而言，需要至少50M的reads
mapping比例，即比对上参考基因组的reads所占比例大于95%，当然80%以上也可以接受
文库复杂度, 和chip_seq类似，采用PBC1, PBC2, NRF共3个指标来描述文库复杂度，对应的标准如下

关于文库复杂度的解释可以参考这篇文章
chip_seq质量评估之文库复杂度
每个样本的peak数量要在15万以上，10万以上是最低标准；使用IDR评估生物学重复样本的一致性，经过IDR处理后的peak为IDR peak,同时也会给出一个IDR score值， IDR peak的数量要在7万以上，5万是最低标准，IDR score的值应小于2
peak结果中要存在NFR和mononucleosome peak区域，NFR peak指的是长度小于1个核小体单位长度的peak区域，1个核小体的DNA长度为146bp, NFR peak长度小于146b；ppmononucleosome peak指的是只跨越了1个核小体的peak, 长度在1个到2个核小体单位长度之间，即146到292bp之间，考虑两个核小
peak区域的reads所占比例，即FRIrScore值应该大于0.3，最低标准是0.2
TSS Enrichment soce，称之为TSS富集分数，就是计算所有TSS位点测序深度的平均值，这个数值的大小与所用的参考基因组有关系，不同参考基因组对应的阈值标准如下