2019大数据产业峰会|腾讯云云产品部工程师张雄:安全多方计算助力数字赋能
为了深入落实国家大数据战略,推动大数据产业交流与合作,展示我国大数据产业最新发展成果,2019年6月4日至5日,由中国信息通信研究院、中国通信标准化协会主办,大数据技术标准推进委员会承办的2019大数据产业峰会在北京国际会议中心隆重开幕。6月5日,数据流通技术与法律论坛隆重举行。腾讯云云产品部工程师张雄以“安全多方计算助力数字赋能”为主题进行了演讲”。
腾讯云云产品部工程师 张雄 大家好,很高兴在这里和大家分享腾讯云在数字赋能上安全多方计算对我们业务的帮助,主要从业务层面介绍一下我们用到的安全多方计算技术,希望给大家建立自己数字生态的时候带来帮助,欢迎大家和我们一起在数字赋能的道路上合作。 我先介绍一下我们的团队前期工作,主要集中在腾讯的神盾推荐系统,大概服务了500多家机构,从推荐系统深刻感受到数据对我们的重要性,高质量的数据和高纬度的数据对推荐效果非常重要。再后来我们通过商业数据分析做了深入的合作,发现数据流通的趋势越来越明显,随之而来的安全问题也是我们迫切面对的,我们推出了神盾沙箱的产品,来赋能更多的业务和场景。 首先看一下数字赋能和发现数据流通的价值所在,以及我们面临的挑战。互联网行业和各行各业产生了交流,数字本身被划分成不同的属性和维度,和不同的行业产生了不同的交叉分支,比如教育、医疗或者游戏。各个行业机构往往会在他们自己对应的数据维度上构建一个比较完整的数据体系,在其他数据体系上相对有所欠缺。在数字赋能的驱动下,单单只有自己行业的维度是明显不够的,这里面数据流通所带来的价值是非常可观的。通过一些数据来看一下数据流通对我们业务所带来的一些帮助。 第一在个性化推荐上的探索,包括游戏、直播和电商各个行业,基于丰富的人群画像做数据流通,将不同的数据合到一起做推荐,取得了一些非常满意的效果。像手Q游戏提高了50%的转化率,直播可以提高100%的转化率,从这里可以看出通过高纬度和高质量的数据融合,可以给推荐带来非常可观的效果。 第二个是金融行业和投放的效益,可以对应四类人群。高端消费人群、信用卡用户、收入浮动人群、工作稳定人群,这些人群的划分依赖于数据标签和数据挖掘,这个过程当中高质量的数据对这些人群的划分非常重要。同时对应到四个业务场景,包括保险投放、信用卡拉新、小额贷款、理财。金融产品可以进一步扩充自己的业务能力,进一步提高自己的业务生态发展,我们相信在产业互联网的过程当中不同的行业也可以借助数据流通来提高自己的业务质量。 在其他行业中应用数据流通的技术往往会遇到四个问题,第一个是数据少,除了金融行业数据体系比较完善以外,其他的行业像教育和旅游数据相对来说比较缺,难以构建比较成体系的数据平台,业务孤岛的情况比较严重,这是数据流通需要解决的现状。第二个要搭建数据应用体系,需要有大量基础设施的建设,网络存储、弹性和容灾的技术,需要有技术应用的要求。这些问题可以在腾讯的一些服务上解决。第三和第四是经验和人才的培养,不仅仅有数字营销的思维,也要有数字营销的手段,还要培养一些顶级的AI团队来完成数据的应用。 这个过程当中最难解决的就是第一个问题,数据流通过程当中数据的拥有方或者数据中心的安全性非常高,数据流通过程当中防范一切的安全风险。为什么说数据风险,数据安全是数据防范的第一要务。这从一方面来说腾讯强调的是数据保护,而不是打通数据和算法,另一方面来说有太多的法规,或者数据泄露警示着我们,要把数据安全放在第一要位。要拥抱产业互联网,数据价值就非常可观,就要保证我们的数据安全,或者说我们需要一个真正的数据安全应用,需要在数据安全的前提下丰富完整的应用体系,包括数据的管理体系、应用体系和业务体系、渠道体系来实现数字赋能,实现更加满意的数字生态。 这种背景下就会遇到一些业务上的问题,我们看一下安全多方计算是怎么来解决这些问题的。以往我们讨论到数据融合时最直观的想法,就是选择一个可信的数据环境,不同的数据方将数据输入到环境以后,辅助一些其他的安全技术,对环境做保护性的防护,来保证整个数据融合整个模式的安全。但是这个数据合作的方式下是不是真的就能够达到一个没有风险的数据保护呢。在信通院发布的安全多方计算的标准里面,有一些对安全模型的定义,这里面有一个定义叫不同时,这个风险模型中,数据传输和数据存储都是安全的,如果有不诚实的行为,恶意的供给其中一个参与方,或者制造假数据,这种计算合作下数据结果要输出到渠道,只要有一方不诚实,数据就有泄露的可能。这种风险存在的根本原因在于各个数据方或者平台方拥有的权利不均等,例如计算环境的控制权在哪一方手里,这个权重就有偏差,把自己的数据交到一个自己没有办法控制的环境当中,数据就有泄露的可能。 因此我们希望提出更加安全的计算应用模式,这种模式下它会以原有的数据保障作为基础。数据的融合仅仅只是虚拟的融合,数据结合信息的融合,这个时候数据仍然存在数据方用户自己的平台上。应用根据数据所在的环境下发任务到不同的环境中执行操作,这个时候数据方对自己的数据有绝对的拥有权。当然一般的数据应用是必须涉及中间参数交互的,这个时候我们的重点就在于如何保护这些中间参数,比如一些统计信息可能涉及到泄露用户信息,比如算法的功能参数也可能泄露用户隐私,这个时候要用安全多方计算技术来保护用户隐私。数据本身也做了虚拟融合以方便计算,数据方对几方的数据仍旧没有绝对的控制权。目前的场景下中国参数的计算形式有许多种,一种是做匹配,一种是做计算,这两种都可以通过安全多方计算技术来做保障。 接下来,结合业务场景分析一下两种不同场景下的技术以及实际的业务。 第一种就是不经意传输。有两种,一种是out-of-2的OT:发送方发送2条信息,接收方从中选择自己想要的第i条信息,而另一条信息保密。另一种是K-out-of-n的OT:不经意传输的N条信息中选择已方想获得的K条数据,同时保护其他N-K条信息。这样一种协议具体的应用场景是什么呢,我们看一下业务拉新的场景。业务拉新是非常普遍的场景,任何产品都需要做拉新的操作,这个业务中的业务方是一个教育机构,他的数据体系相对来说比较欠缺,只局限于自身的用户和比较粗的目标用户群体。这个时候会委托一个数据挖掘方针对业务特性做数据挖掘,数据挖掘方挖掘出适合拉新的目标人群以后,就会出现一个问题,挖掘出来的目标群体里面有一部分用户是已经注册的用户。这个信息是属于教育机构存放的,他并不知道这个用户有没有注册,这个时候教育机构他的大盘用户是商业秘密,他并不想分享给任何一个人,数据挖掘方挖掘出来的用户群体带有自己的数据标签,也涉及到隐私信息的保护也不愿意把挖掘出来的人群暴露给业务方。这个时候就出现了秘密求交的问题,就基于OT实现,在有限的查询中数据挖掘方只要查询自己想获取的信息是否注册了,其他的信息都可以保密,教育方也不知道他查询了什么用户。 (编辑:ASP站长网) |