FinalMLP: An Enhanced Two-Stream MLP Model for CTR Prediction

释放双眼,带上耳机,听听看~!
This article discusses the FinalMLP model, an enhanced two-stream MLP model for CTR prediction, with a focus on its unique features and performance. It belongs to the category of AI资讯.

论文题目:FinalMLP: An Enhanced Two-Stream MLP Model for CTR Prediction[1]^{[1]}

论文来源:AAAI2023

code: github

一、Motivation

  • 已有的模型使用单层的MLP很难进行多样性的特征交互,例如DeepFM、DCN,并且最近的一些研究工作也主要集中于改进显示的特征交互,这忽略了隐式特征的交互关系;

二、Model

FinalMLP: An Enhanced Two-Stream MLP Model for CTR Prediction

模型结构如上图中b所示,该论文改进的地方主要在输入部分的特征融合和输出部分的特征融合;
在输入部分,其引入两个MLP来学习不同特征的权重值,通过门控机制(激活函数)来过滤掉一些没有用的特征,这部分如图a所示,主要是做了一个特征的融合;

FinalMLP: An Enhanced Two-Stream MLP Model for CTR Prediction

公式如上所示,这里会先对user侧和item侧的特征经过基于MLP的gate网络学到一个权重,然后将其与输入的embedding做积得到最后的特征,这里输出会分为两部分再输入到两个不同的MLP中,公式表示为:
FinalMLP: An Enhanced Two-Stream MLP Model for CTR Prediction

在输出部分,没有单纯的直接将双塔模型的输出进行结合,而有引入了多个线性层来学习特征融合,方法如图c所示;

FinalMLP: An Enhanced Two-Stream MLP Model for CTR Prediction

相当于对输出的特征又进行了一个组合,这里作者做了单层的和多头的结构来考虑不同的维度的特征:

FinalMLP: An Enhanced Two-Stream MLP Model for CTR Prediction

最后使用交叉熵函数来计算预估loss

FinalMLP: An Enhanced Two-Stream MLP Model for CTR Prediction

三、Data&Experiments

数据集使用的是公开的四个数据集:Criteo, Avazu, MovieLens, and Frappe[2]^{[2]}

四、Performance

FinalMLP: An Enhanced Two-Stream MLP Model for CTR Prediction

实验结果表明来该方法的优越性,这里有一个有趣的现象就是直接使用两个MLP基本上就能达到SOTA的水平,这里有待进一步考证

五、Ablation Study

FinalMLP: An Enhanced Two-Stream MLP Model for CTR Prediction
作者在三个数据集上做了6组消融实验,其中FS是去掉模型中的a,sum是在c直接使用求和,concat是直接进行拼接,EWP是混入手动处理的特征,DualMLP是直接使用两个MLP,从实验结果可以看出任何一个部分对实验都是有益的,但这里存在如下几个疑问:

  • 为什么加入了EWP效果变差
  • 直接使用两个MLP为什么效果很差

六、Conclusion

本论文提出了一种新颖的特征结合方法,不再依赖于显示特征,完全使用隐式特征进行建模,这在一定程度上缓解了人力成本,另外其实验结果也是比较好的,这进一步证明了模型的有效性

七、References

[1] Mao K, Zhu J, Su L, et al. FinalMLP: An Enhanced Two-Stream MLP Model for CTR Prediction[J]. arXiv preprint arXiv:2304.00902, 2023.

[2] Cheng, W.; Shen, Y.; and Huang, L. 2020. Adaptive Factor- ization Network: Learning Adaptive-Order Feature Interac- tions. In The Thirty-Fourth AAAI Conference on Artificial Intelligence (AAAI), 3609–3616.

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

CutMix&Mixup详解与代码实战

2023-12-13 16:52:14

AI教程

深度神经网络训练问题与解决方法

2023-12-13 17:08:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索