大数据时代下的用户隐私保护 差分隐私能成为"技术救星"吗?
- +1 你赞过了
【天极网网络频道】今天,数据成为一种宝贵资产,无数企业都在争先恐后地收集用户信息。一方面,用户信息能够为企业带来价值,让企业可进行商业分析,改进产品和业务,但是另一方面,企业也会造成用户信息的泄露,危害用户个人隐私。
如果既可以让企业合理适度地收集用户信息,又不至于泄露个人隐私,不仅成为今天许多企业面临的难题,也影响着大数据行业的发展。
2016年6月,苹果公司在全球开发者大会上首次提出了差分隐私技术(Differential Privacy),其作用能够通过密码学算法对用户的数据进行“加密”上传到苹果服务器。苹果可以通过这些“加密”过的数据计算出用户群体的行为模式,但是对每个用户个体的数据无法解析。
根据当时苹果发给媒体的邮件中这样解释:
从iOS 10开始,苹果将使用差分隐私技术在不影响个人隐私的前提下帮助发现大批量用户的使用模式。为了掩盖个人身份,差分隐私会像个人使用模式的小样本中注入数学噪音。随着更多的用户呈现出相同的模式,总体模式就会开始显现,这可以用来增强用户体验。在iOS 10当中,这项技术将会帮助改善QuickType和表情建议,Spotlight深度链接建议和备忘录中的Lookup Hints。
实际上,苹果提出的“差分隐私”不仅得到一些人的赞同,又让某些人提出质疑。相比谷歌和Facebook,苹果这是一种很不错的做法。但是,它并没有被完全展现在用户面前,苹果一直把它“蒙在雾中”。
如何去理解“既可以分析大批数据,又不会获得用户的个人信息”?知乎上名为Kyon的网友解释道:假如我现在想公布一个数据集,给大众做数据分析,但我又想保护里面每一个个体的信息不泄露,那么一种可行的手段就是给这个数据集注入一些噪音或者说扰动。当然这个扰动不能随便加,否则数据就丧失了可用性。然而扰动也不能太小,否则就起不到保护隐私的作用了。
通俗来讲,这个机制保证了一个数据集的每个个体都不被泄露,但数据集整体的统计学信息(比如均值,方差)却可以被外界了解。因此,比如一个医疗机构要公布患者的疾病数据给外界以供研究,就可以先对这个数据集做一个满足“差分隐私”的扰动,再公布出去。
而名为Nemo的知乎网友则指出“差分隐私”的弱点:由于对于背景知识的假设过于强,需要在查询结果中加入大量的随机化,导致数据的可用性急剧下降。特别对于那些复杂的查询,有时候随机化结果几乎掩盖了真实结果。这也是导致目前应用不多的一个原因。
简言之,对某些企业来说,差分隐私的实用性不高,原因在于它们无法从使用了差分隐私的数据中获得更加有价值的信息。
在笔者看来,差分隐私在某些领域能够发挥很好的作用,但是却面临着企业商业价值的挑战。因此,无论如何,这背后都是企业对商业价值和企业道德的衡量结果。
最新资讯
热门视频
新品评测