4

基于移动传感数据的差分隐私

 3 years ago
source link: http://zablog.me/2016/10/03/DP/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

基于移动传感数据的差分隐私

2016年10月3日

差分隐私(Differential Privacy)的概念已经出现了大概10年了。在密码学中,差分隐私的目的是提供一个机制来最大化统计上查询的准确性,同时最小化识别其个别记录的机会。

差分隐私概念的产生还是要从十年前Netflix举办的机器学习大赛说起。Netflix放出了用户的数据给参赛者,希望参赛者可以给出一个更好的推荐算法。虽然Netflix已经隐去了用户ID、Name等可以直接辨识用户身份的信息,但是还是有人通过匹配网上的数据,找到了大批数据所对应的个人,这相当于让这些数据所对应的隐私直接泄露。

因此就出现了差分隐私的方法。推荐一个优秀的网站 Privacy Tools

苹果的WWDC2016用了一个session来讲解差分隐私的概念,并且宣称要开始大规模使用这一技术来统计用户的信息。这也是这项技术产生十年以来第一次大规模地投入业界。

但是对于移动传感数据来说,并不是所有的数据都能直接使用这个技术。

  1. 传感器数据经常会遵循某一种模式,例如心跳速度是一定位于一个可能区间内的。
  2. 传感器数据通常会相互联系。比如加速度传感器数据很高的时候,螺旋仪检测的速度一般也会上升,而且心率、体温一般都会有所升高。

因此,简单地使用噪声的增加是不够合理的。当数据进入不太可信的空间的时候,作为黑客可以尽可能地把不合理的数据隐去,力图找到合理的数据,有很大的可能性进行反推。同时,当多个变量相关联的时候,又进一步增大了这种反推的能力。

因此,如果让移动传感器的数据也使用差分隐私的技术安全地释放出去。必须首先判定用户所处的状态,然后对于这个状态进行差分隐私加噪声,最后再还原出来一个虚拟的raw数据,最终把这个数据释放,才能够达到良好的效果。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK