隐私计算介绍

随着科技的不断进步,计算机算力不断提高,移动互联网、云计算和大数据等技术快速发展,催生了众多新的服务模式和应用。 这些服务和应用一方面为用户提供精准、个性化的服务,给人们的生活带来了极大便利;另一方面又采集了大量用户的信息, 而所采集的信息中往往含有大量包括病史、收入、身份、兴趣及位置等在内的敏感信息,对这些信息的收集、共享、发布、分析与利用等操作会直接或间接地泄露用户隐私,给用户带来极大的威胁和困扰。

个人隐私保护成为人们广泛关注的焦点,人们也都认识到隐私信息是大数据的重要组成部分,而隐私保护关乎个人、企业乃至国家的利益。

针对隐私保护问题,学术界开展了大量的研究工作,包括多方安全计算技术在内的隐私保护技术在逐步完善发展中得以应用。 然而,隐私缺乏定量化的定义,隐私保护的效果、隐私泄露的利益损失以及隐私保护方案融合的复杂性三者缺乏系统的计算模型, 这就使得隐私信息在不同系统和不同用户间的共享、交换和分析过程中难以被准确刻画和量化,阻碍了各类计算和信息服务系统对隐私进行有效、统一的评价。

针对这一问题,2016年,中国科学院信息工程研究所研究员李凤华等对隐私计算在概念上进行了界定:隐私计算是面向隐私信息全生命周期保护的计算理论和方法, 具体是指在处理视频、音频、图像、图形、文字、数值、泛在网络行为信息流等信息时,对所涉及的隐私信息进行描述、度量、评价和融合等操作, 形成一套符号化、公式化且具有量化评价标准的隐私计算理论、算法及应用技术,支持多系统融合的隐私信息保护。

隐私计算涵盖信息所有者、搜集者、发布者和使用者在信息采集、存储、处理、发布(含交换)、销毁等全生命周期中的所有计算操作, 是隐私信息的所有权、管理权和使用权分离时隐私描述、度量、保护、效果评估、延伸控制、隐私泄露收益损失比、隐私分析复杂性等方面的可计算模型与公理化系统。

同时,中国信通院根据数据的生命周期,将隐私计算技术分为数据存储、数据传输、数据计算过程、数据计算结果4个方面, 每个方面都涉及不同的技术,如图下所示。

生命周期 数据存储 数据传输 数据计算过程 数据计算结果
相关技术 SM2、SM3、SM4、RSA、SHA2、AES等 SM2、SM3、SM4、RSA、SHA2、AES、SSL、TLS等 混淆电路、秘密共享、联邦学习、同态加密等 差分隐私等
生命周期 相关技术
数据存储 SM2、SM3、SM4、RSA、SHA2、AES等
数据传输 SM2、SM3、SM4、RSA、SHA2、AES、SSL、TLS等
数据计算过程 混淆电路、秘密共享、联邦学习、同态加密等
数据计算结果 差分隐私等

根据数据生命周期,我们可以将隐私计算的参与方分为输入方、计算方和结果使用方三个角色。

在一般的隐私计算应用中,至少有两个参与方,部分参与方可以同时扮演两个或两个以上的角色。 计算方进行隐私计算时需要注意“输入隐私”和“输出隐私”。输入隐私是指参与方不能在非授权状态下获取或者解析出原始输入数据以及中间计算结果, 输出隐私是指参与方不能从输出结果反推出敏感信息。

联合国全球大数据工作组将隐私保护计算技术定义为在处理和分析数据的过程中能保持数据的加密状态、确保数据不会被泄露、无法被计算方以及其他非授权方获取的技术。 与之基本同义的一个概念是“隐私增强计算技术”。