联邦学习如何克服AI隐私问题
罗恩是IBM和其他高科技公司的退休工程师和经理。他对现代技术写得既广泛又深入。
人工智能(AI)和机器学习(ML)从海量数据中提取价值的应用正在加速。在市场营销、健康、自动驾驶汽车、银行和物联网(IoT)等领域,AI/ML*在大数据集中识别微妙模式和相关性的能力,正在提供以前无法获得的见解和能力。
为了发挥它的魔力,机器学习模型或算法必须经过“训练”,以识别它吸收的数据中感兴趣的模式。模型的准确性直接取决于用于训练它的数据量。这就是为什么对于大多数真实世界的用例来说,生成一个有效和有用的AI/ML模型需要大量的训练数据。这就产生了一个隐私问题。
*在本文中,我们将交替使用术语AI、ML和AI/ML。
隐私是当今人工智能面临的主要问题
这是这个问题的一个例子。
开发能够可靠地帮助医生诊断医疗状况的AI/ML算法,需要使用来自真实患者的大量数据对模型进行训练。所需数据的数量和种类远远超出了一家医院所能提供的。传统上,这意味着来自许多机构的数据必须集中在一个集中的存储库中,以聚集训练ML模型所需的大量数据。
但随着今天强调隐私,分享患者的个人信息已经变得非常有问题。例如,欧洲联盟的一般数据保护条例(GDPR)严格禁止在没有该人的明确许可之间在不同组织之间交换个人的个人信息(PI)。它还为个人控制可以控制其信息的使用。从数据构成培训数据集的一部分的每个人获得同意的不切实性严重限制了有效的AI / ML诊断助理的发展。
但谷歌在2017年最初开发了一种名为“联合学习”的新方法,允许人工智能模型在不需要分享和整合私人信息的情况下进行训练。
什么是联合学习?
联合学习是制定的一种方法,即消除了AI模型培训的原始数据的中央商店的要求。相反,在每个数据源进行模型培训。(Examples of data sources, often referred to as endpoint devices or clients, include consumers’ smartphones, IoT devices, autonomous vehicles, and electronic health information systems.) Only model updates, and never the raw data residing on the endpoint devices, are sent to a central location
下面是它的工作原理。
学习过程
首先,在一个中央服务器上生成一个通用的机器学习模型。这个模型只不过是一个起始基线,它被分发到所有端点或客户端设备。以智能手机或物联网设备为例,这些设备的数量可能达到数百万。原始数据(包括任何潜在的敏感或受保护的个人信息)存储在客户中。
每个客户机使用自己的数据作为训练输入,更新它从中央服务器接收到的ML模型。然后,客户机将其本地更新的模型返回到中央服务器,中央服务器聚合来自所有客户机的更新,并使用它们生成新的基线模型。然后将新基线分发给客户端,并重复这个循环,直到基线得到优化。
为什么这个过程很有价值
谷歌在宣布这项新技术时,提供了一个具体的、真实的例子来说明它的价值。尽管大多数用户并不知道,但每当他们在智能手机上输入文本时,他们都在使用人工智能。这是因为智能手机使用基于人工智能的文本预测模型,试图在你开始向手机输入文本时预测下一个单词。
为人工智能记者Karen Hao报道麻省理工学院技术评论,注释最近的文章,它是联合学习的,“允许谷歌培训由Android用户发送和收到的所有消息上培训其预测文本模型 - 没有实际读取它们或从手机中删除它们。”
对机器学习的影响
预计联合学习将从根本上改变人工智能模型的开发方式。医疗人工智能模型的训练方式就是一个很好的例子。在联邦学习出现之前,在一个中心位置聚集大量数据的必要性严重限制了研究人员开发有效的人工智能诊断模型的能力。正如Karen Hao所说,
“当它只在同一医院的几千名患者训练时,您无法在世界各地部署乳腺癌检测模型。所有这些都可以随着联邦学习而改变。“
今天,大多数组织只有有限的内部生成数据供应,他们可以在培训他们的AI模型中使用;由于法律,监管或经营限制,他们面临巨大的障碍,以获取来自其他组织的有效培训数据来增加内部可用的数据。联合学习应该通过允许组织在建立准确的AI模型方面进行协作,以在这些药物,物联网,自治车辆等中使用AI的使用巨大推动。
潜在问题
训练人工智能模型是一个计算和记忆密集型的过程。由于联合学习要求在智能手机、自动驾驶汽车或物联网设备等终端设备上进行此类培训,这些设备上的计算负载可能会对它们的正常功能造成干扰。缓解这些困难的一个方法是将人工智能模型训练过程安排在设备正常情况下空闲的时间。
此外,让上百万的设备通过网络发送和接收模型更新可能会导致带宽限制问题。谷歌已经解决了这个问题联合平均算法与缺少该功能的实现相比,它可以使用10-100x的通信培训深度网络。
另一个可能更严重的问题是,联邦学习容易受到所谓的“模型中毒”的影响。由于联合学习人工智能模型是通过从大量端点设备获取模型更新数据来开发的,恶意行为者可能有机会通过编造或“毒害”一些端点设备发送的模型更新信息来破坏最终模型。这可能允许他们创建进入模型的后门。
因为模型更新数据对于人类来说是极其困难的,因为保持模型信息的源匿名是许多联邦学习实现的设计特征,识别提供给基线模型的污染信息的源,甚至存在。非常困难。防止这种可能性可能涉及某种“设置一个良好的AI模型来捕获糟糕的AI模型”战略的发展。
联合学习的未来
在不违反数据隐私的情况下培训AI / ML模型的能力是一个巨大的技术进步。That’s why federated learning has the potential to be a game-changer in many AI application areas, including computer vision, natural language processing, health care, autonomous vehicles, IoT, and the large-scale prediction and recommendation applications used in e-commerce systems. It would be no exaggeration to say that, to a significant degree, federated learning is reshaping the future of AI.
这一内容准确且符合作者知识的最佳知识,并不意味着代替合格的专业人士的正式和个性化建议。
©2020罗纳德E富兰克林
注释
罗纳德·富兰克林(作者)2020年7月21日,PA:
很值得赞赏,乔。
罗纳德·富兰克林(作者)2020年7月21日,PA:
谢谢你,埃里克。
乔米勒来自2020年7月21日的田纳西州:
非常彻底和信息。
Eric dierk2020年7月20日,美国加州斯普林谷:
这在今天很有趣,也很贴切。我必须承认,我很容易被模仿,这对我来说没问题。