从本体论开始说起——运营商关系图谱的构建及应用(2)
测试数据集选用三个月全网用户的通话记录,节点属性包括是否联通号、手机号码对应职住经纬度等;边属性包括号码间三个月的主被叫通话次数、主被叫次数,天数,时长等。数据集大小约为750G,载入图数据库结果如图3。 (图3) 载入后根据每台机器VertexCount和EdgeCount可以看到图数据库共加载了约17亿节点(号码),340亿边(通话关系)。其中NumOfSkippedVertices表达了一个去重的过程,即:每个节点只加载一遍。因此,partition size的总和只有590G左右,实际上是对数据进行了压缩。 做一个简单的号码关系查询(如图4),在百亿级边的图数据库里可以实现毫秒级响应。值得注意的有两点:1. 查询返回为json格式;2. 查询语言为类sql语言。 (图4) 我们可以将查询语言以文件形式存储,通过install/run query进行查询。同时,在后台install一个查询还会生成一个REST端点,这样就可以通过http来调用参数化查询。如图5,通过查询语言进行图遍历,,寻找两个号码间的最短距离。这样就能实现我们熟悉的六度空间理论(小世界理论),即:世界上任何两个人最多只需通过6个关系就能找到对方。 (图5) 如果我们定义号码与号码间的通话频次为关系权重,每个人的通话人数为通话活跃度。试想,一个人和你没有通话记录,但是和你的好朋友通话比较频繁,你是不是也有可能认识这个人呢?这个查询就是从图中挖掘你可能认识的人。查询输入是待查号码与最可能认识的k个手机号,返回是查询号码和输入号码的距离(如图6)。 (图6) 最后,给出一个真实的场景案例,是否能够通过企业少数员工号码、imei或其他ID,寻找企业员工群体,并对该群体进行分析,来反应企业实际经营地址、活跃度等情况呢?这里给出【2步邻居子图】的概念(以手机号做节点为例),即:输入号码联系人及联系人的联系人(如图7,这里使用可视化交互界面展示通话关系)。 (图7) 在模型搭建过程中,我们对通话时间段、时长、频次进行分析,评估可能存在的同事关系,并基于现有职住模型以及栅格技术挖掘企业真实经营地址。以我自己手机号为例(如图8),可以看到返回企业员工主要聚集的工作地(数字表示工作地在相应栅格内的人数),即:联通大数据公司两个办公区(职住数据取自2018年12月)、联通集团。 (图8) 基于对人群行为的洞察,该模型能够帮助工商部门动态的、客观的对企业真实位置、企业活跃情况进行评估与判断,为相关监察监管提供数据支撑。 值得一提的是,基于联通大数据关系图谱,在十亿级节点、百亿级边的大型网络结构中,查询6步邻居子图也只需要不到1秒(如图9)。可视化交互界面如图10(中间白色点为我的手机号)。 (图9) (图10) 为了更细节的洞察网络中的关系,将展示阈值缩小(如图11)。经查验,中间环形结构上的每个点相互间都是同事关系。社交网络中环形结构上的点往往存在某种隐含关联,同事关系、亲疏关系、团伙关系、资金流向等等。基于不同样本、不同场景的应用,相较于传统数据库类型,图数据库可以最大程度挖掘样本间的关联关系。 (图11) 另外,大量经典的图挖掘算法,如:社区发现,Pagerank,LPA等也已ready,为传统机器学习模型入模特征增加更多的图特征。 总之,本体、知识图谱、图数据库都是用节点和关系为真实世界的各个场景直观地建模,运用“图”这种基础性、通用性的“语言”,“高保真”地表达这个多姿多彩世界的各种关系,并且非常直观、自然、直接和高效。联通数据拥有得天独厚的“节点”、“关系”优势,我们正坚定不移的走在图发现的道路上! (编辑:ASP站长网) |