论文题目:FinalMLP: An Enhanced Two-Stream MLP Model for CTR Prediction[1]^{[1]}
论文来源:AAAI2023
code: github
一、Motivation
- 已有的模型使用单层的MLP很难进行多样性的特征交互,例如DeepFM、DCN,并且最近的一些研究工作也主要集中于改进显示的特征交互,这忽略了隐式特征的交互关系;
二、Model
模型结构如上图中b所示,该论文改进的地方主要在输入部分的特征融合和输出部分的特征融合;
在输入部分,其引入两个MLP来学习不同特征的权重值,通过门控机制(激活函数)来过滤掉一些没有用的特征,这部分如图a所示,主要是做了一个特征的融合;
公式如上所示,这里会先对user侧和item侧的特征经过基于MLP的gate网络学到一个权重,然后将其与输入的embedding做积得到最后的特征,这里输出会分为两部分再输入到两个不同的MLP中,公式表示为:
在输出部分,没有单纯的直接将双塔模型的输出进行结合,而有引入了多个线性层来学习特征融合,方法如图c所示;
相当于对输出的特征又进行了一个组合,这里作者做了单层的和多头的结构来考虑不同的维度的特征:
最后使用交叉熵函数来计算预估loss
三、Data&Experiments
数据集使用的是公开的四个数据集:Criteo, Avazu, MovieLens, and Frappe[2]^{[2]}
四、Performance
实验结果表明来该方法的优越性,这里有一个有趣的现象就是直接使用两个MLP基本上就能达到SOTA的水平,这里有待进一步考证
五、Ablation Study
作者在三个数据集上做了6组消融实验,其中FS是去掉模型中的a,sum是在c直接使用求和,concat是直接进行拼接,EWP是混入手动处理的特征,DualMLP是直接使用两个MLP,从实验结果可以看出任何一个部分对实验都是有益的,但这里存在如下几个疑问:
- 为什么加入了EWP效果变差
- 直接使用两个MLP为什么效果很差
六、Conclusion
本论文提出了一种新颖的特征结合方法,不再依赖于显示特征,完全使用隐式特征进行建模,这在一定程度上缓解了人力成本,另外其实验结果也是比较好的,这进一步证明了模型的有效性
七、References
[1] Mao K, Zhu J, Su L, et al. FinalMLP: An Enhanced Two-Stream MLP Model for CTR Prediction[J]. arXiv preprint arXiv:2304.00902, 2023.
[2] Cheng, W.; Shen, Y.; and Huang, L. 2020. Adaptive Factor- ization Network: Learning Adaptive-Order Feature Interac- tions. In The Thirty-Fourth AAAI Conference on Artificial Intelligence (AAAI), 3609–3616.