因子分解机（Factorization machine，FM），DIFM模型-CFANZ编程社区

因子分解机（Factorization machine，FM）

DIFM模型

1 Sparse Input and Embedding Layer：稀疏输入和嵌入层

2 Dual-Factor Estimating Networks (Dual-FEN) Layer：双因子估计网络 (Dual-FEN) 层

因子分解机（Factorization machine，FM）

已经被成功地应用于各种推荐系统中。同时，许多的研究工作聚焦于从特征交互角度来提升FM模型的效果，如DeepFM将FM和DNN进行结合，建模特征之间的二阶和高阶交互，AFM通过引入attention思想，建模不同特征交互的重要性。

但是上述工作忽略了样本的独特性，举例来说，当样本是<青少年，女性，学生，喜欢粉色>，预测是否会点击<连衣裙>，此时女性这个特征会起到较为关键的作用；当样本是<青少年，女性，学生，喜欢蓝色>，预测是否会点击<笔记本>，此时女性这个特征就相对来说没有那么重要。因此，同一个特征在不同样本中应该被赋予不同的重要程度以更好地反映其具体贡献。

下图是IFM的模型结构：

因子分解机（Factorization machine，FM），DIFM模型_DNN

编辑

其中，FEN结构如下：

因子分解机（Factorization machine，FM），DIFM模型_人工智能_02

编辑

在IFM中，使用DNN结构来计算input-aware factors，这种方式是bit-wise level的，也就是说，特征的embedding的不同元素之间会相互影响；另一方面，在CTR预估领域，使用NN网络来学习input-aware factors是否是最有效的，这一点也有待商榷。

本文在IFM的基础上，在网络中加入了transformer，进一步在vector-wise level学习input-aware factors，提出了Dual Input-aware Factorization Machine (DIFM)。Dual这里我们翻译为双重，意思是既包括bit-wise的建模，又包括vector-wise的建模。接下来，一起来看一下DIFM网络结构。

DIFM模型

DIFM的结构如下图所示：

因子分解机（Factorization machine，FM），DIFM模型_DNN_03

编辑

接下来，按照从下到上的顺序，依次介绍模型的几个部分：

1 Sparse Input and Embedding Layer：稀疏输入和嵌入层

假设输入样本中有h个域，每个域中只有一位取值为1，其余取值为0，那么经过embeding层，共得到h个长度为k的embedding向量。将这些向量转置后横向拼接，得到Ex:

因子分解机（Factorization machine，FM），DIFM模型_Network_04

编辑

2 Dual-Factor Estimating Networks (Dual-FEN) Layer：双因子估计网络 (Dual-FEN) 层

这一层也是论文的主要创新点所在，其结构如下，主要包含vector-wise part和bit-wise part。

vector-vise part

vector-vise part主要借鉴transformer中encoder的block结构，其结构如下：

因子分解机（Factorization machine，FM），DIFM模型_Network_05

编辑

首先，针对embedding layer的输出Ex，首先reshape为h*k的矩阵：

因子分解机（Factorization machine，FM），DIFM模型_建模_06

编辑

随后，分别经过Multi-Head Self Attention和Residual Network得到两部分输出，同transformer的block结构，论文也加入了Residual Network部分来保存原始embedding向量的有效信息。具体地，Multi-Head Self Attention的计算过程如下：

因子分解机（Factorization machine，FM），DIFM模型_建模_07