SIGIR'22「阿里」MetaCVR：元学习缓解小规模推荐中数据 ...

title：MetaCVR: Conversion Rate Prediction via Meta Learning in Small-Scale Recommendation Scenarios
link：https://arxiv.org/pdf/2112.13753.pdf
code：https://github.com/AaronPanXiaoFeng/MetaCVR
from：SIGIR 2022

喜欢的小伙伴记得三连哦，感谢支持
更多内容可以关注公众号：秋枫学习笔记
1. 导读

本文主要针对CVR样本数据的分布随时间变化的问题而提出的相关方法。像淘宝，亚马逊这样的大电商平台数据量大，可以通过短期内收集的数据进行训练，即可以假设分布是一致的。但是在小场景中，可能需要数月的数据才能进行足够的模型训练，而数月的数据和当前以及之后的数据相比，数据分布会存在明显的变化；并且，不同场合对数据分布的影响也是不同的，比如促销活动前后，用户的行为往往是不同的。本文就是针对上述问题提出的方法MetaCVR。
与淘宝、亚马逊等大型平台不同，由于数据分布波动（DDF）问题严重，小规模推荐场景下的CVR建模更具挑战性。 DDF 使现有的 CVR 模型无法发挥作用，因为

1）需要几个月的数据才能在小场景中充分训练 CVR 模型，导致训练和在线服务之间存在相当大的分布差异；
2）电商促销对小场景影响显着，导致未来时间段的分布不确定性。

本文从元学习的角度提出了一种新的 CVR 方法，MetaCVR。

首先，设计一个由特征表示网络（FRN）和输出层组成的基本 CVR 模型，并使用数月的样本进行充分训练。
然后，将具有不同数据分布的时间段视为不同的场合，并使用相应的样本和预训练的 FRN 获得每个场合的正负原型。
随后，使用一个距离度量网络（DMN）来计算每个样本与所有原型之间的距离度量，以帮助减轻分布不确定性。
最后，开发了一个集成预测网络（EPN），结合 FRN 和 DMN 的输出来进行最终的 CVR 预测。在这个阶段，冻结 FRN 并用最近时间段的样本训练 DMN 和 EPN，从而有效地缓解分布差异。

2. 方法

划分不同场合：BP：Before-Promotion促销前；DP：During-Promotion促销期间；AP：After-Promotion促销后；Not-Promotion无促销(即日常)。假设每个场合的每个类别的样本形成一个单一的原型表示，将不同场合下的购买行为进行聚类得到不同模式的簇。每个场合下都会包含各种模式，且影响不同，单纯区分样本的来源场合并不能提供良好的性能。因此，本文采用带参模型进行估计，公式如下，其中F()表示输入特征的表征，d()为距离函数，，,表示在场合occ时类cls的表征，g()是预测函数。

如图所示为所提方法的总体架构，F()为FRN，d()为DMN，g()为EPN()。

2.1 CVR基模型

如上图所示，输入包括五部分：用户行为序列，用户特征，商品特征，用户和目标商品的交互特征，上下文特征。他们经过共享的embedding层后，得到对应的表征分别为

。在FRN中的MainNet部分经过三种注意力机制，用户行为序列表征（即上面的），经过多头自注意力机制发掘用户多方面的兴趣得到，这个输出结合用户表征经过用户注意力机制发掘用户个性化信息，同理结合目标商品表征挖掘历史兴趣中和当前目标商品相关的信息得到，最后结合,,，，拼接后经过MLP得到MainNet的输出。为了建模不同用户在不同上下文信息下的偏好，构建BiasNet。将,作为输入，经过MLP得到。最后，得到FRN的输出后，经过三层的MLP输出层对CVR进行预估。使用logloss进行损失函数构建，表达如下，其中D表示小场景中数月的的日志数据，相反表示最近的数据。
2.2 原型表征

用户在不同场合的行为是有差异的，通过在中选择该场合的一天并将其样本分成2个子集，正支持集和负支持集，为每个场景构建支持集。正支持集包括当天的所有购买样本，而负支持集包括其余的点击样本。然后使用预训练的 FRN 将输入映射到表征空间，并计算特征的平均值作为其支持集的原型，公式如下，表示场合occ下类cls的支持集

根据上述方法，可以得到以下四对原型对，

2.3 距离度量网络DMN

在本文中，由于 FRN 的表征空间是高度非线性的，因此可能不适合选择余弦距离和欧氏距离等固定线性距离度量。而是采用可学习的距离度量，采用可训练的空间映射距离度量SPDM，表示如下，其中W,b是可训练参数，可以发现余弦相似度是SPDM的特例。

本文还提出了一种基于神经网络的距离度量（NNDM），旨在学习查询样本和支持集之间的关系，公式如下，

2.4 集成学习网络EPN

基于SPDM或NNDM可以得到四组距离度量，表达如下，

在大多数现有的基于度量的工作中，查询样本的分类是通过简单地找到其最近的原型来执行的，这并不直接适用于 CVR 预测，因为原型在均值池化后不维护细粒度的个性化信息，然而这是对性能良好的 CVR 模型至关重要。将这些距离度量与 FRN 的输出结合到一个集成方法中，表达如下，其中为基模型的CVR预估，表示在场合occ下购买（转化）的概率有多大。最终通过全连接层进行预测，使用logloss构建损失函数。这个阶段只训练DMN和EPN，FRN的梯度不回传。

3. 结果

image.png