文献综述
1.引言
传统的深度学习方式由于训练有素的模型包含有关训练集的基本信息,因此会产生严重的隐私影响。为了解决这个问题,Shokri amp; Shmatikov(2015)提出了基于随机梯度下降法的联合深度学习框架,允许各方在本地训练深度学习模型,并有选择地与服务器共享训练结果。这一框架实现了摆脱训练数据中心化的限制,保护了参与者的数据隐私。但近期的一些研究表明,现有的联合深度学习框架面临一些特殊的攻击方式,隐私保护要求仍要进一步提高。
本课题的目的是对现有联合深度学习框架的安全结构进行深度优化,结合最新的一些攻击方式(GAN攻击、训练时间攻击、模型攻击等),建立完备的联合深度学习隐私保护系统。
2.背景介绍
深度学习是机器学习利用神经网络的一个新分支,这个概念可以追溯到1943年,为了找到各种复杂任务的解决方案而提出的。神经网络的灵感来自人类大脑学习的方式,即分布式人工神经网络也可以学习非平凡的任务,即使当前的架构和学习过程远非大脑般的行为。算法的突破,收集大量数据的可行性以及加强了的计算能力促成了当前神经网络的普及。深度学习模型在处理相关数据方面表现非常出色。然而,尽管有多种深度学习方式,由于训练有素的模型包含有关训练集的基本信息,因此深度学习会产生严重的隐私影响。而新近提出的联合深度学习框架在模式上有着较为可靠的隐私保护,然而最新研究发现了对应的攻击方式,因此仍然存在安全隐患。
3.研究现状
最初的同时迄今应用最广的深度学习方式是集中式深度学习。集中学习通过将存储在用户上的私有数据集统一上传到单个位置来构建分类器,经由服务运营商在组合数据集上训练模型。因为可以访问所有数据,集中学习非常有效,但是与此同时,深度学习所需的大量数据收集存在明显的隐私问题。用户的个人高度敏感数据(如照片和视频)由收集它的公司无限期保留,用户既不能删除它,也不能限制它的使用目的。此外集中保存的数据收到法律传票和司法监督。许多数据所有者,例如希望将深度学习技术应用于临床记录医疗机构,却会因为通过共享数据而受到隐私或保密问题的阻止。为了解决使用数据和保护隐私的矛盾,研究者们提出了大量的基于云计算的外包算法,这些算法使用同态加密或其他加密的方法,将原始数据加密发给训练者。但由于模型计算和加密操作的复杂性,这些外包解决方案不能很好地用于深度学习领域。
为了解决这个问题,在2015年Shokri amp; Shmatikov提出了基于随机剃度下降法的联合深度学习框架。关键的技术创新是在培训期间参与者在他们自己的数据集上独立训练,并有选择地共享他们模型的关键参数的小子集。该参数共享与随机梯度下降期间的局部参数更新交织,允许参与者从其他参与者的模型中受益,而无需明确共享训练输入。该方法独立于用于为特定任务构建模型的特定算法。因此,它可以在不改变核心协议的情况下轻松适应神经网络训练的未来进展。选择性参数共享是有效的,因为现代神经网络训练的随机梯度下降算法可以并行化并且异步运行。它们对于不可靠的参数更新,竞争条件,参与老退出等都是健壮的。用从其他参与者获得的值更新一小部分参数允许每个参与者在寻找最佳参数的过程中避免最小值。可以调整参数共享以控制交换的信息量与所得模型的准确性之间的权衡。实验证明即使没有额外的保护措施,该系统已经实现了比现有方法更强大的隐私保护,而且实用性损失可以忽略不计。这个系统中的唯一泄漏不是直接泄露所有训练数据,而是通过一小部分神经网经参数进行间接泄漏。为了尽量减少这种泄漏,系统还展示了如何使用稀疏矢量技术将差异隐私应用于参数更新,从而减少由于参数选择(即,选择要共享哪些参数)和共享参数值而导致的隐私损失,并以此定量测量准确性和隐私之间的权衡。这在公用事业/隐私权衡空间中提供了一个有吸引力的点:参与者呆留其各自数据的隐私,同时仍然受益于其他参与者的模型人而提高他们的学习准确度,超出了他们自己的输入所能达到的水平。同时通过收集和交换这些参数,服务运营商可以创建一个训练有素的模型,该模型几乎与用集中学习构建的模型一样准确。分散方法的数据集不是直接暴露的,因此比起集中学习,具有相当程度的隐私保护。
深度学习社区最近提出了生成对抗网络(GAN)。GAN的目标不是将图像分类到不同的类别,而是为训练集中的那些数据生成看起来相似的样本(理想情况下具有相同的分布)。更重要的是,GAN生成这些样本而无法访问原始样本。GAN仅与判别式深度神经网络交互以学习数据的分布。这是一项有着广阔应用前景的研究。然而在最新的研究中,有人使用GAN设计了一种针对联合深度学习的强大攻击。攻击的结果是任何充当内部人员的用户都可以从受害者的设备中推断出敏感信息。攻击者只需运行协作学习算法并重建存储在受害者设备上的敏感信息。攻击者还能够影响学习过程并欺骗受害者发布更详细的信息。攻击可以在不影响服务运营商的情况下工作,即使模型参数通过差异隐私进行模糊处理也是如此。相比较下,集中式服务器是唯一损害数据隐私的位置。而在联合深度学习中任何用户都可以故意破坏任何其他用户。联合深度学习暴露出极大隐私隐患。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。