隐私计算在英国医疗中的应用现状和挑战

发布时间 - 2023-07-12 14:35:10    点击率:344次

医学成像、音频和人工智能的最新进展为医疗保健和研究带来了前所未有的可能性。以英国为例,其公共卫生系统充斥着人口规模级别的电子患者记录。

借助丰富的数据资源,加上强有力的学术和研究计划,英国正在推进及时和有影响力的健康研究,以提供更有效的治疗,用于跟踪和预防公共卫生风险,甚至拯救生命。

在国际上,医院每年产生的数据估计有50 PB,利用这一数据资源能够产生的巨大的公共利益,特别是人工智能辅助分析对于实现大健康数据的价值至关重要。

但站在患者角度,健康数据本质上属于个人,如果健康数据被滥用导致用户隐私受到损害,可能会导致公众对于医疗机构的不信任。

针对上述问题,隐私计算技术发挥了至关重要的作用,特别是在欧盟严苛数据保护条例下,它的作用更加明显,下面从联邦学习在医学影像领域的应用出发,梳理一下隐私计算技术在医学领域的现状和挑战。

0联邦学习在医学成像领域中的应用

主要隐私风险

磁共振成像(MRI)是一种利用强磁场和无线电波产生身体内部和内脏详细图像的扫描。MRI扫描产生的图像为疾病进展的诊断和分期提供了关键信息。

MRI图像集可用于训练机器学习算法,以检测图像中的某些特征或异常。这项技术可以用于筛选大量图像,进而识别将患者行为、遗传或环境因素等变量与大脑功能联系起来的模式。

MRI成像和元数据可以揭示患者的敏感信息。事实上,即使是个人在数据集中的存在也可能是敏感的。虽然可以通过删除姓名、地址和扫描日期来识别图像本身,但有时可以重新识别神经图像。

联邦学习技术

联邦学习是一种远程执行模式,其中模型在本地训练好之后“发送”到服务器进行聚合。这可以让研究人员在不访问这些数据集的情况下使用其他站点的数据来优化模型。

例如,如果不同大学的研究人员持有神经成像数据,联邦学习方法将允许他们根据所有参与者的成像数据训练模型,即使这些数据对分析师来说仍然“不可见”。

在这种情况下,有两种方法可以实现联邦学习:

(1)每个站点分析自己的数据并建立模型;然后将该模型共享到所有相关研究人员共同的远程服务器(集中节点)。然后,该节点将所有模型合并为一个“全局”模型,并将其共享回每个站点,研究人员可以在那里使用新的模型

(2)模型是迭代构建的,其中远程节点和本地节点轮流发送和返回信息。

无论哪种方法,所有用户的模型都是通过从远程数据集“学习”来改进,而这些数据集本身从未被揭示。通过使用联邦学习,原始数据不共享,从而排除了与数据保护相关的最常见问题。

同时,联邦学习并不能提供完美的隐私,模型仍然容易受到一些高级攻击。这些袭击的风险可能足够低,各方都可以接受,这样他们就可以继续进行。

当然也可以采取其他保障措施。这些可能包括检测何时对MRI数据集进行重复查询,该数据集可以与公共数据交叉引用以重新识别受试者

现有开源平台

COINSTAC是一个开源的跨平台应用程序,由佐治亚州亚特兰大的神经成像和数据科学转化研究中心(TReNDS)创建,它说明了如何通过联邦学习和隐私保护算法克服神经成像中的数据访问障碍。

COINSTAC允许无法直接共享数据的用户使用可以在任何环境(如个人设备、私人数据中心或公共云)中运行的软件包,协同运行开放、可复制的联邦学习和协调预处理。

它使用容器化软件(在一个环境中运行所有必要代码的软件,无论主机操作系统如何都是可执行的,因此在各个平台上是一致的),此软件可在GitHub上获得MIT许可。

COINSTAC开发人员已经记录了几个案例。在一项研究中,使用欧洲和印度数据集的联邦分析发现,青少年大脑灰质的结构变化与年龄、吸烟和体重指数(BMI)有关。

另一个案例研究使用联邦神经网络分类器在静息状态功能MRI(fMRI)数据中区分吸烟者和非吸烟者。联邦模型通常会获得与使用合并数据的模型类似的结果,并且比仅从孤立站点提取数据的模型更好。

此外,TReNDS研究人员正在开发用于深度学习的优化算法,以在不牺牲准确性的情况下减少传输带宽。

在第三个例子中,大脑年龄估计算法被训练来使用神经成像预测实际受试者年龄;然后将其应用于估计新受试者的生物大脑年龄。这是有用的,因为生物大脑年龄的估计和实际年龄之间的巨大差距是阿尔茨海默病等大脑疾病的潜在生物标志物。该模型获得的结果在统计学上与集中式模型相当。

TReNDS目前还正在开发一个COINSTAC Vault网络,这将使研究人员能够对多个大型、精心策划的数据集进行联邦分析。这一开放科学基础设施将实现快速的数据重用,在不同的数据集上创建更通用的模型,并通过消除小型或资源不足群体的进入障碍来实现研究民主化。

0未来:医疗数据分析的新兴隐私挑战

放射学在临床和研究环境中使用医学成像来诊断、治疗疾病和监测。基于机器学习的高质量模型可以提供图像的二次读取,充当医学研究人员和临床医生的“数字同行”。

一旦该模型能够识别疾病模式,就可以导出供其他临床医生和研究人员使用(如果该模型可以转移的话)。

导出模型后,原始创建者将放弃控制权。虽然模型不是“原始数据”,但也存在潜在的漏洞。过度训练的模型可能仍然忠实于训练数据集,以至于它们有可能泄露有关训练数据的细节。链接攻击可以获取来自模型的信息,当与第三方数据链接时,会导致个人数据暴露。

最后,模型反演或重建攻击可以允许攻击者对来自模型的训练数据集进行逆向工程。作为一种相对较新的可能性,模型反演中的风险收益评估相对不成熟。

数据保护法规(如英国GDPR)可能缺乏对敏感数据训练模型的明确性。传统上,模型被视为知识产权或商业秘密,而不是个人数据。

然而,“经过训练的模型可以将步态或社交媒体使用等看似不敏感的数据转化为敏感数据,如个人健康或医疗状况的信息。”

0总结

训练机器学习模型需要大型、稳健的国际神经成像数据集。这些数据集存在于世界各地的各种机构中。安全地使用远程数据集来训练机器学习模型可以改变该领域的研究。此外,保护成像受试者的隐私可以增加对研究的参与度,增强未来神经科学进步所需的多样性和大规模数据。

本文由“开放隐私计算”翻译整理自《From privacy to partnership》节选,转载请注明来源。

来源:开放隐私计算

最新文章 第十二版《网络安全企业100强》发布 开源推荐算法为什么并不“可靠”? 虹膜写真风靡年轻人:小心泄露敏感个人信息 国内最大IT社区CSDN被挂马,CDN可能是罪魁祸首? Apache Struts文件上传漏洞 (CVE-2024-53677) 安全风险通告 工信部:关于防范新型勒索病毒Ymir的风险提示 美国报告揭示俄罗斯战略信息攻击:从攻击方法到战略效果 最危险的网络攻击:云勒索软件 个人信息保护合规审计:个人信息删除落地与审计 Forrester:Akamai创新微分段技术引领企业安全升级,实现 152%高ROI Fortinet发布《2025年网络威胁趋势预测报告》 揭秘四大威胁挑战 榜上有名!360入选2024年天津市网络安全应用场景优秀案例 只需一个暗号,即可戳穿语音克隆骗局 写在IDCC2024数字基础设施国际合作大会之前 IETF的运行方式及RFC的形成 《AI时代深度伪造和合成媒体的安全威胁与对策(2024版)》报告发布 UnitedHealth勒索软件攻击事件应吸取的六个备份教训 网络安全产品奥斯卡 2024年度赛可达优秀产品奖(SKD AWARDS) “危“”机“并存,五位网络安全大咖预警2025年安全态势 赋能智算未来,CDCE2024国际数据中心展12月5日上海璀璨开幕 俄罗斯黑客组织渗透和利用巴基斯坦黑客组织服务器案揭秘 国家安全部:警惕开源信息成为泄密源头 “清朗·网络平台算法典型问题治理”专项行动中的排名算法 游戏玩家请注意!Winos4.0木马已“潜伏” 2024 DAMS中国数据智能管理峰会即将在上海举办 WAF气数已尽? 网安巨头Palo Alto全球数千防火墙被攻陷:因开发低级错误造成零日漏洞 数字城市AI安全运营中心签约揭牌,360赋能长三角城市安全新篇章 勒索软件忙招人,2024年网络威胁五大新趋势 360发布全球首份《大模型安全漏洞报告》,曝光近40个大模型相关安全漏洞 值得关注的十二大网络安全风险评估工具及选型指南 俄黑客通过“近邻攻击”远程入侵美国企业WiFi网络 四校签约、六家授牌!360与河南高校再摘网络安全人才培育新果实 Apple多个在野高危漏洞在野利用通告 苹果官方警告:零日漏洞攻击瞄准Mac电脑用户 《密码法》颁布五周年:法治成效、实施难点与未来走向 27天!揭秘身份管理中凭证修复为何如此艰难? 微软“清理门户”,禁止杀毒软件访问Windows内核 云原生环境下的七大网络安全威胁及应对建议 ​透析恶意软件“四大家族”
在线客服
联系方式

热线电话

18556842815

上班时间

周一到周五

公司电话

027-85365976

二维码
线