24小时联系电话:185 8888 888

科技
您现在的位置: 首页 > 科技 > 人工智能存在隐私问题,但是这些技术可以解决它
  • “酷”大脑研究的扭曲观念扼杀了心理治疗

    “酷”大脑研究的扭曲观念扼杀了心理治疗

    发布时间:2020/03/31

      ‘对于人类的每一个问题,总是存在着众所周知的解决方案-简洁,合理和错误。” 人类从来没有遇到过比了解我们自己的人性更复杂的问题。而且,不乏任何试图探究其深度的简洁,合理和错误的答案。 在我职业生...

  • SpaceX赢得NASA合同,使用新型Dragon XL工艺将货物运送到月球网关

    SpaceX赢得NASA合同,使用新型Dragon XL工艺将货物运送到月球网关

    发布时间:2020/03/31

      美国国家航空航天局(NASA)挖掘出一种尚未建造的SpaceX货运飞船,用于向尚未发射的绕月轨道前哨基地运送补给品。 SpaceX的机器人Dragon XL是其主力Dragon太空船的圆柱形超大型版本,将作为第一批从NASA获得...

  • Spaces应用程序使人们可以参加VR中的Zoom会议

    Spaces应用程序使人们可以参加VR中的Zoom会议

    发布时间:2020/03/30

      一个名为Spaces的新PC VR应用程序使用户可以从VR内部加入Zoom会议和其他视频通话。 该应用是根据最近发生的COVID-19大流行而开发的,该大流行已经使世界各地许多人在家中工作并使用诸如Zoom之类的虚拟会议...

  • 汇盈医疗声称其AI可以从CT扫描中检测冠状病毒,准确率达96%

    汇盈医疗声称其AI可以从CT扫描中检测冠状病毒,准确率达96%

    发布时间:2020/03/30

      总部位于中国惠州的医疗设备公司慧英医疗声称已开发出一种AI成像解决方案,该解决方案使用CT胸部扫描来检测COVID-19的存在。该公司断言,如果不使用逆转录聚合酶链反应(RT-PCR)(COVID-19的标准测试方法),...

人工智能存在隐私问题,但是这些技术可以解决它

发布时间:2019/12/23 科技 浏览次数:744

 
人工智能有望改变(实际上已经改变)了整个行业,从公民计划和医疗保健到网络安全。但是,隐私仍然是行业中尚未解决的挑战,尤其是在涉及合规性和法规方面。
最近的争议使这个问题大为缓解。英国伦敦国家卫生局(National Health Service)部门的伦敦皇家免费NHS基金会信托(Northern Free London NHS Foundation Trust)未经允许,向Alphabet的DeepMind提供了160万患者的数据。去年11月,与Ascension共享健康数据的合作伙伴关系成为谷歌的审查对象。谷歌放弃了计划,发布关于胸部X光片包含个人身份信息的担忧的扫描图。去年夏天,在有人发现有人不知道其中有1000人的图像后,微软悄悄删除了一个数据集(MS Celeb),其中包含超过1000万张人的图像。
另外,包括苹果和谷歌在内的科技巨头也受到了报道的关注,他们发现可能会滥用录音来改善Siri和Google Assistant等助手。今年4月,彭博社透露,亚马逊雇用了合同工来注释来自Alexa供电设备的数千小时音频,这促使该公司推出了面向用户的工具,这些工具可以快速删除云存储的数据。
隐私越来越不仅仅是一个哲学问题,而且在业务过程中也至关重要。州,地方和联邦各级的法律旨在使隐私成为合规管理的强制性部分。在美国50个州,领地和哥伦比亚特区,数以百计的涉及隐私,网络安全和数据泄露的法案正在等待或通过。可以说,其中最全面的《加利福尼亚消费者隐私法》大约在两年前就已签署成为法律。更不用说《健康保险可移植性和责任制法案》(HIPAA),该法案要求公司在披露个人健康信息之前必须获得授权。欧盟的《通用隐私数据保护条例》(GDPR)等国际框架旨在让消费者更好地控制个人数据的收集和使用。
过去,人工智能技术并不是在考虑隐私的情况下开发的。但是,机器学习的一个子领域(保护隐私的机器学习)寻求开创可能防止损害个人身份数据的方法。在新兴技术中,联合学习,差分隐私和同态加密可能是最有前途的技术。
神经网络及其脆弱性
在大多数AI系统的心脏处,所谓的神经网络都是由功能(神经元)组成,这些功能按层排列,将信号传输到其他神经元。这些信号(数据或输入的结果,输入到网络中)从一层到另一层传播,并缓慢地“调整”网络,实际上是在调整每个连接的突触强度(权重)。随着时间的流逝,网络从数据集中提取特征并识别交叉样本趋势,最终学会进行预测。
神经网络不会摄取原始图像,视频,音频或文本。而是将训练语料库的样本代数转换为多维数组,例如标量(单个数字),向量(标量的有序数组)和矩阵(标量排列成一列或多列和一列或多行)。封装标量,向量和矩阵(张量)的第四种实体类型增加了有效线性变换(或关系)的描述。
尽管进行了这些转换,但通常仍可以从神经网络的输出中识别出潜在的敏感信息。数据集本身也很容易受到攻击,因为它们通常不会被混淆,也因为它们通常存储在容易受到数据泄露影响的集中存储库中。
到目前为止,机器学习逆向工程的最常见形式称为隶属推理攻击,其中攻击者(使用单个数据点或多个数据点)确定其是否属于训练目标模型的语料库。事实证明,从数据集中删除敏感信息并不意味着无法重新推断,因为AI非常擅长重建样本。除非使用隐私保护技术,否则受过训练的模型会包含关于提供给他们的任何设置的折衷信息。
在一项研究中,威斯康星大学和马什菲尔德诊所研究基金会的研究人员能够从经过训练的可预测药物剂量的机器学习模型中提取患者的基因组信息。另外,卡内基梅隆大学和威斯康星大学麦迪逊分校的研究科学家设法从训练有素的面部识别模型重建特定的头部图像。
更为复杂的数据提取攻击采用了生成对抗网络,即GAN-由两部分组成的AI系统,该系统由生成样本的生成器和鉴别器组成,这些鉴别器试图区分生成的样本和真实样本。他们受过训练,可以生成与原始语料库中的样本非常相似的样本,而无需访问所述样本,并通过与判别性深度神经网络进行交互以了解数据的分布。
2017年,研究人员证明,可以训练GAN来生产私人套装的原型样品,从而揭示该套装的敏感信息。在另一项研究中,一个团队使用GAN来推断用于训练图像生成机器学习模型的样本,在“白盒”设置中,他们可以访问目标模型的参数,成功率高达100% (例如,选定的AI技术用于调整数据的变量)。
幸运的是,诸如联合学习和差异化隐私之类的方法充满了希望。
联合学习
简而言之,联合学习是一种在不交换数据样本的分散设备或服务器(即节点)上训练AI算法而无需交换这些样本的技术,从而使多方可以构建通用的机器学习模型而无需大量共享数据。与此相反,传统的分散方法假定本地数据样本分布广泛。
中央服务器可能用于协调算法的步骤并充当参考时钟,或者安排可能是对等的(在这种情况下,不存在这样的服务器)。无论如何,都对局部数据样本进行局部模型训练,并且以某种频率在各个模型之间交换权重以生成全局模型。
这是一个迭代过程,分为多个交互集,称为联合学习回合,其中每个回合包括将当前的全局模型状态传输到参与节点。在节点上训练局部模型,以在每个节点上生成一组潜在的模型更新,然后将局部更新聚合并处理为单个全局更新,并将其应用于全局模型。
联合学习先驱Google已将联合学习用于生产。 Google将其用于Gboard预测键盘中的个性化设置,用于“成千上万”的iOS和Android设备。在Pixel 4推出的同时,Google推出了“即时播放”音乐识别功能的改进版本,该功能以联合方式汇总歌曲的播放次数,从而根据地区来确定最受欢迎的歌曲,以提高识别度。该公司最近为其TensorFlow机器学习框架推出了一个名为TensorFlow Federated的模块,该模块旨在使对分布式数据的深度学习和其他计算的实验变得更加容易。
当然,没有任何技术没有缺陷。联合学习要求在学习过程中节点之间频繁交流。切实地,为了使机器学习模型交换参数,它们需要大量的处理能力和内存。其他挑战包括无法检查训练示例,以及偏见,部分原因是AI模型仅在动力和参数传输手段可用时进行训练。
差异隐私
联合学习与差异性隐私密切相关,差异性隐私是一种系统,用于通过描述语料库中的组的模式同时保留有关个人的数据来公开共享有关数据集的信息。通常,这需要在将原始数据输入本地机器学习模型之前对其进行少量注入,从而使恶意行为者难以从经过训练的模型中提取原始文件。
直观地,如果观察者看不到算法的输出却无法确定在计算中是否使用了特定个人的信息,则该算法可被视为差分私有算法。然后,差分私有联合学习过程使节点能够共同学习模型,同时隐藏任何节点持有的数据。
开源TensorFlow库TensorFlow Privacy遵循差异隐私原则。具体来说,它使用修改后的随机梯度下降法对模型进行微调,该方法将训练数据示例引起的多个更新平均在一起,对每个更新进行剪辑,并将噪声添加到最终平均值中。这样可以避免记住稀有细节,并且可以确保无论是否在训练中使用一个人的数据,这两种机器学习模型都无法区分。
自2017年以来,苹果一直在使用某种形式的差异隐私来识别流行的表情符号,Safari中的媒体播放首选项等,并且该公司在其最新的移动操作系统版本(iOS 13)中将其与联合学习相结合。两种技术都有助于改善Siri以及Apple的QuickType键盘和iOS的“在应用中找到”功能等应用的结果。后者会扫描日历和邮件应用程序,以查找未在本地存储号码的联系人和呼叫者的姓名。
英伟达和伦敦国王学院的研究人员最近利用联合学习来训练神经网络进行脑肿瘤分割,这是英伟达的一个里程碑,声称这是医学图像分析的第一个里程碑。他们的模型使用了来自285名脑肿瘤患者的BraTS(多模态脑肿瘤分割)挑战赛的数据集,并且与Google和Apple采取的方法一样,它利用差分隐私为该语料库增加了噪音。
Nvidia高级研究员Nicola Rieke在上一次采访中对VentureBeat表示:“通过这种方式,[每个参与节点]存储更新并限制了我们在机构之间实际共享的信息的粒度。” “如果您只看到模型更新的50%或60%,我们是否仍可以通过全局模型收敛的方式来合并贡献?我们发现“是的,我们可以。”实际上非常令人印象深刻。因此,如果您仅共享模型的10%,甚至可以以某种方式聚合模型。”
当然,不同的隐私也不是完美的。注入到基础数据,输入,输出或参数中的任何噪声都会影响整体模型的性能。在一项研究中,将噪声添加到训练数据集中后,作者注意到预测准确性从94.4%下降到24.7%。
替代性的保护隐私的机器学习技术-同态加密-不受这些缺点的困扰,但距离漏洞还很远。
同态加密
同态加密并不是什么新事物,IBM研究人员Craig Gentry于2009年开发了第一个方案,但随着计算能力和效率的提高,近年来它也越来越受到关注。它基本上是一种加密形式,可以对使用算法(也称为密文)加密的明文(文件内容)进行计算,从而使生成的加密结果与对未加密文本执行的操作结果完全匹配。使用这种技术,“加密人”(例如,任何可应用于加密数据的学习型神经网络)都可以对数据执行计算,并将加密结果返回给某个客户端,然后客户端可以使用加密密钥(从未共享)公开-解密返回的数据并获得实际结果。
英特尔物联网部门副总裁乔纳森·鲍伦(Jonathan Ballon)在今年早些时候的一次采访中表示:“如果我发送MRI图像,我希望我的医生能够立即看到它们,但没人能看到。” “ [同态]加密提供了这一点,此外,模型本身也已加密。因此,公司……可以将该模型[放在公共云上],而[云提供商]不知道他们的模型是什么样。”
实际上,同态加密库还没有充分利用现代硬件,它们至少比传统模型慢一个数量级。但是像cuHE(一种加速的加密库)这样的较新项目在各种加密任务上的速度比以前的实现提高了12到50倍。此外,近几个月来,分别建立在Facebook的PyTorch机器学习框架和TensorFlow上的PySyft和tf-encrypted库取得了长足的进步。因此,也有像HE-Transformer这样的抽象层,它是nGraph(英特尔神经网络编译器)的后端,可在某些加密网上提供领先的性能。
实际上,就在几个月前,英特尔研究人员提出了nGraph-HE2,它是HE-Transformer的后继产品,它可以使用其本机激活功能推断出标准的,经过预训练的机器学习模型。他们在一篇论文中报告说,就标量编码(将数字值编码为位数组)而言,运行时的速度提高了3倍至88倍,并且吞吐量提高了一倍,附加的乘法和加法优化产生了2.6的速度时间达到4.2倍运行时加速。
IBM高级研究科学家Flavio Bergamaschi已研究了在边缘使用硬件来实现同态加密操作的情况。在最近的一项研究中,他和同事们在配备AI摄像头的设备上部署了本地同态数据库,从而可以直接在该摄像头上执行搜索。他们报告说,性能“同质化快”,每个数据库条目仅需要1.28秒的查找时间,相当于在5分钟内进行了200条查询。
他在最近的一次电话采访中对VentureBeat表示:“我们正处于绩效的拐点。” “现在,完全同态加密在性能方面已经足够快,足以满足某些用例。”
在生产方面,Bergamaschi及其团队与一家美国银行客户合作,使用同态技术对机器学习过程进行加密。该机器学习过程是一个线性回归模型,具有超过十二个变量,它分析了来自经常账户持有人的24个月交易数据,以预测这些账户的财务状况,部分是推荐贷款等产品。由于客户的隐私和合规性问题,IBM团队对现有模型和有问题的交易数据进行了加密,并且他们使用加密和未加密的模型进行预测以比较性能。尽管前者的运行速度比后者慢,但准确性却是相同的。
“这是重要的一点。我们证明了,如果我们没有用于[我们]预测的任何模型,我们就可以获取交易数据并进行生产中新模型的训练。” Bergamaschi说。
对同态加密的热情催生了许多家庭创业公司,旨在将其引入生产系统。总部位于新泽西州纽瓦克的Duality Technologies最近获得了英特尔风险投资部门之一的资金支持,将其同态加密平台推销为“无数”企业(尤其是受管制行业的企业)的隐私保护解决方案。银行可以在各个机构之间进行增强隐私的金融犯罪调查,因此公司的销售策略也可以这样做,而科学家可以利用它与有关病历的研究进行合作。
但是,与联合学习和差异隐私一样,同态加密也无法提供任何魔咒。甚至领先的技术也只能计算多项式函数-对于非多项式的机器学习中的许多激活函数而言,这不是启动器。另外,对加密数据进行的运算只能涉及整数的加法和乘法,这在学习算法需要浮点计算的情况下是一个挑战。
Ballon说:“在您可能需要10秒钟来推论的域中,[同态加密]很好,但是如果您今天需要3毫秒的周转时间,那就没有办法了。” “计算量太大,这可以追溯到工程领域。”
自2014年以来,Bergamaschi及其同事已尝试使用硬件方法来加速同构运算。从历史上看,带宽一直是最大的绊脚石,尽管加速器单独提供强大的基准性能,但它们并不能整体带来强大的系统性能。这是因为执行操作所需的数据在处理器和加速器之间需要大量带宽。
解决方案可能在于可以更有效地利用处理器的片上存储器的技术。韩国高级科学技术研究院研究人员发表的一篇论文提倡对所有常规和支持安全的数据使用组合缓存,并为安全处理器和类型识别缓存插入模块使用内存调度和映射方案。他们说,结合在一起的方法可以将典型的8核和16核安全处理器中的加密性能降级从25%-34%降低到8%-14%以下,而额外的硬件成本却最小。
还有很长的路要走
新技术也许可以解决AI和机器学习中固有的一些隐私问题,但它们还处于起步阶段,并非没有缺点。
联合学习可在分散的边缘设备之间训练算法,而无需交换其数据样本,但这种方法很难检查,并且受功率,计算和互联网波动的影响。 差异性隐私会暴露有关数据集的信息,而保留有关个人的信息,但由于注入的噪声而导致准确性下降。 至于同态加密(一种允许对加密数据进行计算的加密形式),它有点慢且计算量很大。
但是,像Ballon这样的人相信这三种方法都是朝着正确方向迈出的一步。 Ballon说:“这与从HTTP到HTTPS非常相似。” “我们将有工具和功能来使[机器学习的私密性]有一天变得无缝,但是我们还没有。”