Euler问世!国内首个工业级的图深度学习开源框架(2)
如 1.2 节所述,除了 LINE 算法以外,我们实现的算法可以分为随机游走与邻居汇聚两大类算法。有关外部算法的详细信息,请参见 1.2 节提供的论文链接。下面我们详细介绍内部的三个创新算法,相关论文的链接我们会在 github 上给出。
它是一种高效的 GCN 训练算法。GCN 以及更一般的 Graph Neural Network (GNN)类的方法由于能有效的提取图结构信息,在许多任务上均取得了超过以往方法的效果。但是 GCN 的模型会引入巨大的计算量,导致模型的训练时间不可接受。Scalable-GCN 在保证优秀效果的前提下,把 mini-batch GCN 的计算复杂度从层数的指数函数压到线性。这使得在阿里妈妈的海量数据下应用三层 GCN 成为可能,广告匹配的效果获得了显著提升。
LsHNE 是我们结合阿里妈妈搜索广告场景创新地提出一种无监督的大规模异构网络 embedding 学习方法。区别于 DeepWalk 类算法,LsHNE 的特点包括:a) 采用深度神经网络学习表达,可以有效融合 Attribute 信息;b)考虑 embedding 表示的距离敏感需求,提出两个负采样原则:分布一致性原则和弱相关性原则;c)支持异构网络。
LasGNN 是一种半监督的大规模异构图卷积神经网络学习方法, 它有效融合了图结构知识信息和海量用户行为信息,大幅提升了模型精度,是工业界广告场景下首次应用半监督图方法。该方法有多处创新,例如将 metapath 的思想应用于图卷积网络中,并提出了 metapathGCN 模型,有效解决了异构网络的卷积问题;提出了 metapathSAGE 模型,在模型中我们设计高效的邻居采样的方法,使得大规模的多层邻居卷积成为可能。 3. 应用实例 Euler 平台已经在阿里妈妈搜索广告的多个场景下广泛实用,并取得了出色的业务效果,例如检索匹配场景、CTR 预估场景、营销工具场景和反作弊场景等。我们以匹配场景的为例来看下 Euler 的应用。 广告匹配的任务是给定用户搜索请求,匹配模块通过理解用户意图,快速准确地从海量广告中找到高质量的小规模候选广告集,输送给下游的排序模块进行排序。 我们首先使用一些传统的挖掘算法,从用户行为日志、内容属性等维度挖掘出 Query (查询词), Item (商品)和 Ad (广告)的多种关系,然后利用 Euler 平台的 LsHNE 方法学习图中节点的 embedding,这里节点 embedding 后的空间距离刻画了原来图中的关系,对于在线过来的请求通过计算用户查询词向量、前置行为中节点向量和广告节点向量之间的距离进行高效的向量化最近邻检索,可以快速匹配到符合用户意图的广告。图 2 展示了 LsHNE 方法的离线和在线流程。具体图 3 展示了样本构造和网络结构示意。 Figure2 DeepMatch 召回框架 Figure 3 离线训练流程 【编辑推荐】
点赞 0 (编辑:ASP站长网) |