差分隐私技术(差分隐私二维数据流统计发布)
随着网络技术的飞速发展,数据流已经广泛应用于各种应用中,如在线交易、疾病监测、环境监测等。然而,该数据流包含大量个人隐私信息,直接在对境外发布数据将导致个人隐私的泄露。因此,如何保护数据流中的个人隐私信息是目前研究的热点。然而,目前的研究成果都是针对对一维数据流的,但是在实际应用中,数据流具有不止一维的属性。如何在满足差分隐私的同时高效地处理多维数据流具有重要意义。
随着网络技术的飞速发展,数据流已经广泛应用于各种应用中,如在线交易、疾病监测、环境监测等。它们通常具有高速、连续到达、数量大和不适合二次访问的特点。在线处理这些数据并实时发布相关统计信息将带来巨大价值。然而,该数据流包含大量个人隐私信息,直接在对境外发布数据将导致个人隐私的泄露。因此,如何保护数据流中的个人隐私信息是目前研究的热点。Dwork[1]提出的差分隐私保护模型被认为是一种严格而稳健的保护模型。与k-匿名[2]、l-多样性[3]等模型相比,该保护模型不关心攻击者的背景知识,即使攻击者掌握了除某一记录之外的所有记录的敏感信息,该记录的敏感信息也不会泄露。近年来,基于差分隐私[4-14],一些研究者在数据流领域取得了一些有价值的研究成果。然而,目前的研究成果都是针对对一维数据流的,但是在实际应用中,数据流具有不止一维的属性。如何在满足差分隐私的同时高效地处理多维数据流具有重要意义。
1相关工作近年来,研究者在差分隐私文献[4-6]模型下对对数据流的统计发布做了一些研究,首次提出了差分隐私对数据流的连续统计和发布方法,可以实现数据流的实时统计和相关信息的发布,而不泄露个人隐私。文献[7]针对对二进制数据流提出了多种差分隐私统计发布方法,并在此基础上提出了能够抵抗单次攻击和多次攻击的算法。虽然文献[4-7]的研究成果可以在一定程度上保护数据流中的个人隐私不被泄露,但这些方法主要考虑在二进制流的背景下统计和发布数据流中1的出现次数的问题,即假设数据流元素只取0或1,它们的应用范围有一定的局限性。
文献[8-10]关注对更一般的一维数据流,文献[8]关注对现有工作中只能固定一个查询的问题,提出了一种基于滑动窗口计数的查询方法。方法首先选择一些查询作为代表查询:对代表查询,算法在加入适当的噪声后直接返回结果;虽然对不代表查询,但它的查询结果是通过分解和组合生成的。在[9]中,不可信收集器希望收集分布式环境中多个用户数据流的统计信息。为了保证用户的隐私,提出了一种结合差分隐私保护技术和加密技术的方法来解决分布式环境下的协同聚合问题,使得数据收集者无法获得除信息之和以外的其他信息。文献[10]基于近似统计,利用滑动窗口和加密技术,有效地实现了分布式环境下对数据流的连续统计发布。虽然现有的差分隐私数据流统计发布研究已经取得了一定的成果,但这些研究仅仅针对一维数据流。根据对,的二维数据流,设计了一种有效的差分隐私统计发布算法,保证了发布数据的高可用性。
4.1算法的主要思想是对2D数据流,滑动窗口N中的数据作为统计发布对图像。首先,将滑动窗口的N个数据按时间顺序划分为大小为W的K个不相交的窗口单元。对对每个窗口单元执行统计滤波;然后将k个窗口单元的统计结果合并生成滑动窗口n的统计结果;然后通过条件筛选,加入合适的噪声以满足差分隐私的要求。滑动窗口以窗口单位为步长滑动,同时公布统计结果,从而实现数据流的连续统计公布。
5实验结果和分析本章将对来自二维数据流统计的已发布数据的可用性进行实验研究。本文测试了PTDSS算法和PTDSS-SW算法在不同参数下的对比。在实验中,使用定义7中提到的相位对误差作为测量标准,并且实验结果是几组实验的平均相位对误差的结果。
5.1实验数据和环境实验中使用了网飞数据集,其中包含了480189名用户从1999年11月到2005年12月31日的17770部电影的评分记录。以2001年1月1日至2005年12月31日的2,817,100条记录为例,将电影标识和时间分别作为数据流的第一维和第二维属性,作为实验数据进行随机排序。
实验环境:英特尔酷睿i3-3210万处理器,3.20千兆赫,4GB内存,Ubuntu12.04操作系统。用c语言实现算法,用Matlab绘制实验图。5.2实验结果和分析
结论本文针对对,二维数据流统计发布中的隐私泄露问题,提出了符合差分隐私: PTDSS算法和PTDSS-SW算法要求的二维数据流统计发布算法。PTDSS算法实现了差分隐私;需求下的定长二维数据流的统计发布,在PTDSS算法的基础上,PTDSS-SW算法利用滑动窗口机制实现了二维数据流的连续统计发布。理论分析和实验结果表明,该算法能够安全保护二维数据流统计发布的隐私,保证统计发布结果的高可用性。