F-seq:一个古老的peak calling工具-CFANZ编程社区

F-seq软件发明于2008年，其作用就是peak calling, 从一堆NGS测序数据中发现有意义的位点，既适用chip-seq数据，也适用于DNase-seq的数据，官网如下

http://fureylab.web.unc.edu/software/fseq/

对应的文章发表在Bioinformatics杂志上，链接如下

https://academic.oup.com/bioinformatics/article/24/21/2537/192643

该软件采用java语言进行开发，安装简单，使用方便，基本用法如下

fseq  -o out_dir  input.bed

输入文件为bed格式，保存了bam文件中reads的比对信息，也称之为TagAlign格式，在之前的文章中有详细介绍，可以通过bedtools将bam文件转换为bed格式，命令如下

bedtools bamtobed \
-i reads.bam \
-bedpe > input.bed

-o参数指定输出结果对应的文件夹，输出文件支持以下3种格式

保存peak calling的结果，narrowpeak是最常用的文件格式。以上就是该软件的基本用法，可以说是非常的简单了。

除了基础用法外，该软件还支持DNA拷贝数的校正，分成了以下两个方面来考虑

参考基因组本身存在序列多拷贝现象，在参考基因组中，有部分DNA序列是多拷贝的，多拷贝区域对应的测序reads相比其他区域，是有一个明显的富集现象的，而peak calling就是在寻找这样的富集区域，如果不考虑DNA序列的的多拷贝，这些非特异性的富集区域会增加peak calling结果的假阳性。为此，提供了bffBuilder软件来建立参考基因组的模型，通过kmer分布来描述基因组自身的多拷贝现象，生成的文件后缀为bff
不同组织或者细胞中存在拷贝数变异CNV，拷贝数对peak calling的影响不言而喻，考虑到不同样本的CNV, 也提供了iffBuilder软件来建立特定组织或者细胞的CNV模型, 生成的文件后缀为iff

以上两个软件生成的文件可以看做是参考基因组的background, 在官网提供了部分版本对应的数据

F-seq:一个古老的peak calling工具_数据分析
F-seq:一个古老的peak calling工具_数据_02

也可以使用对应的软件生成自己的background文件，生成之后，放到一个文件夹下，可以通过-b参数调用，命令如下

fseq -b background_dir -o out_dir  input.bed

如果不使用background文件，该软件的peak caling结果是相当多的，假阳性很高，建议根据自己的参考基因组和样本类型，建立对应的backgroun文件。

·end·

F-seq:一个古老的peak calling工具_数据分析_03

一个只分享干货的

生信公众号