图表征(Graph Embedding)是近年来信息检索领域内最流行的方法之一,但它们往往建模在平坦的欧氏空间中。近年来的研究发现欧氏空间在建模特定图结构如层次、环状结构时天然存在误差,在本文中,我们将介绍如何利用非欧图表征提高复杂异构图建模精度同时在阿里妈妈搜索广告场景下取得线上收益。该项工作已被国际数据工程顶级会议ICDE 2022 (International Conference on Data Engineering) 收录,对应框架也已开源。
论文标题:
AMCAD: Adaptive Mixed-Curvature Representation based Advertisement Retrieval System
下载链接:
https://arxiv.org/abs/2203.14683
开源地址:
https://github.com/alibaba/Curvature-Learning-Framework
本文提出了自适应非欧表征广告检索系统AMCAD,首次将混合曲率空间应用到大规模工业数据上,使模型端到端的根据复杂数据结构自动学习出损失最低的表征空间。
基于CurvLearn(开源地址:https://github.com/alibaba/Curvature-Learning-Framework)提供的非欧深度学习算子,AMCAD旨在使用多种曲率空间表征不同异构节点,通过自动学习空间曲率及动态组合权重实现对复杂异构图的高精度表征。下图展示了AMCAD的具体设计,左侧为模型总体架构,从底至上分为以下三阶段:
AMCAD整体架构,分为点级别自适应混合曲率编码、边级别空间映射及子空间距离融合三部分,分别对应复杂结构的混合曲率表征、异构节点的自适应边空间及多几何空间的权重融合