DPTraj-PM:差异私有轨迹合成DPTraj-PM:差异私有轨迹合成
DPTraj-PM:差异私人轨迹合成使用前缀树和马尔可夫过程娜娜王江苏师范大学计算机科学与技术学院,莫汉新加坡国立大学计算学院,不断使用的设备产生了大量的轨迹数据。这些数据为我们了解个人和人口的流动提供了重要的见解,受益于从交通规划到流行病建模的广泛应用。然而,轨迹数据的不当释放却日益增加了人们对个人隐私的关注。以前的尝试要么缺乏强有力的隐私保证,要么未能保存原始数据的充分基本特征。在本文中,我们提出了一种在DP-差分隐私(DP)框架下合成轨迹数据集的方法,同时确保高数据效用。基于个体的轨迹主要由初始轨迹段(描述起点和初始方向)和下一个定位点决定的假设,DP
如今,GPS(全球定位系统)设备的普及和无处不在的无线连接的兴起,产生了大量的个人轨迹数据(图1)。这些数据代表了个人的移动行为,可用于许多数据挖掘和建模应用程序[1-2],如交通流量分析、城市规划、市场营销分析和流行病建模。另一方面,轨迹数据是高度敏感的[3-5]。家庭和工作地点、健康状况、宗教信仰和个人关系可以很容易地从个人的下落中推断出[2]。由于对隐私泄露的担忧,公司和研究人员不愿发布数据集。这阻碍了许多数据驱动的研究无法分析此类数据以最好地为公众服务。许多研究努力已经做出了防止隐私泄露[6-14]。例如,[8]通过使轨迹k-匿名化来防止识别用户的轨迹;[9-10]通过干扰轨迹来引入扭曲
轨迹段或时间信息的连通性;[11]生成假人以降低识别披露率;[12]通过深度学习模型合成新的轨迹;[13-14]基于语义隐身保护敏感位置访问。这些方法可以在特定的攻击模型下保护隐私。但一旦对手能够收集到更多的背景知识,个人的敏感信息仍然可能被披露[1-2,15]。
近年来,差异隐私(DP)[16]已成为能够提供可证明和强有力的隐私保证的主要标准。差异隐私的主要思想是向数据集添加隐私预算��的噪声,这样对手就不能决定特定记录是否包含在[17]中。一般来说,解决方案实现这样的隐私原则构建一些移动模型(例如,树[17-19],或概率分布[20- 23])总结个人的完整的运动行为从原始数据,应用噪声,使模型不同私有,然后从噪声模型[2]生成合成轨迹。然而,由于轨迹数据固有的序列性和高维性,既要保持真实数据的特征,又要完全满足差异隐私准则,仍然是一个挑战。为了说明我们的主张,我们将我们的方法DPTrajPM与四个最相关的工作进行了比较:图2中的DPT [19]、AdaTrace [20]、DP-MODR [21]和LDPTrace [22]。每种技术生成的轨迹中访问的前n个区域的概率分布都很明显
图2:每种方法在Taxi-1(��=1):(a)DPT[19],(b)DdaTrace[20],(c)DPD-MODR[21],(d)LDPTrace[22]和(e)上生成的真实和合成轨迹的前n个访问区域的概率分布。我们需要指出,尽管一些现有的方法采用了前缀树[17-19]或1阶马尔可夫过程[20-23]不同私有轨迹合成,DPTraj-PM是第一个模型轨迹使用前缀树紧随其后的是一个m阶马尔可夫模型(图3),并添加精心设计的噪声在微分隐私下隐私保护和更好的数据效用。前缀树帮助DPTraj-PM保留初始方向和起点,而用于下一个位置点预测的m阶马尔可夫过程允许DPTrajPM节省高前缀树所需的一些隐私预算,并生成更长的轨迹。此外,在分配给马尔可夫过程的足够的轨迹数据和相同的隐私预算的情况下,基于依赖于m个先前位置点的m阶马尔可夫过程预测下一个位置点可能会更多
在本节中,我们回顾了差异私有轨迹发布的最先进的算法,即基于差异隐私保护个人隐私的发布(或发布)轨迹数据库的方法。根据用于轨迹组织的移动性模型,我们将它们分为三类,并讨论每个类别下的相关工作。将轨迹建模为树。这类作品的大部分都是关于由地点所代表的轨迹。Chen等人[18]的第一个对这种轨迹采用差异隐私的工作。它们将轨迹组织为一个前缀树,也就是说,通过将使用相同前缀的轨迹分组而建立的一个层次框架。
前缀树的每个节点都存储一个位置序列的计数。由于轨迹的单性性,叶节点的计数可能非常稀疏,因此数据实用程序可能不理想。在随后的工作[17]中,用可变长度n克表示的子轨迹来构建勘探树。叶片数量变高,但轨迹的开始和结束区域可能没有得到很好的保存。为了获得更好的数据效用,Wang和Sinnott [26]利用自适应剪枝技术和几何隐私预算分布策略构建了一个噪声增强的前缀树。为了发布经过净化的时空轨迹数据,Al-Hussaeni等人的[27]根据位置分类树和时间戳分类树,将前缀树的每个层次划分为两个子层次:位置和时间戳。Li等人的[28]使用增量隐私预算分配技术和时空降维方法作为前缀树来提高数据的效用。由于每个级别都消耗了一些隐私预算,因此前缀树的高度是有限的,因此它可能仍然不能很好地扩展到长轨迹。
图3:不同方法使用的模型的主要组成部分: (a) DPT [19],(b) AdaTrace [20],(c) DP-MODR [21],(d) LDPTrace [22],和(e) DPTraj-PM。将轨迹建模为集群。这类算法的目的是在不同的隐私条件下,将每个时间点的位置划分为簇,然后从噪声簇中提取样本,用于合成轨迹释放[29-31]。为了
图3:不同方法使用的模型的主要组成部分: (a) DPT [19],(b) AdaTrace [20],(c) DP-MODR [21],(d) LDPTrace [22],和(e) DPTraj-PM。将轨迹建模为集群。这类算法的目的是在不同的隐私条件下,将每个时间点的位置划分为簇,然后从噪声簇中提取样本,用于合成轨迹释放[29-31]。为了
例如,Hua等人的[29]通过指数机制概率地合并每个时间点的位置,然后采用来自拉普拉斯机制的噪声计数技术来发布合成轨迹。由于每个合并位置集的质心不经过任何修改就被释放,重建一些轨迹可能是[1]。Zhao等人[30]通过在每个时间戳的位置簇中心中添加
拉普拉斯噪声来计算噪声簇。Liu等[31]采用楼梯机制[32]产生噪声簇中心。因为每个时间戳都需要一定的隐私预算,所以这些方法[29-31]可能不适合释放长轨迹。将轨迹建模为概率分布。这种方法[20-23,33-37]依赖于将噪声添加到一组概率分布中,这些概率分布描述了原始轨迹中运动的一些关键统计特征,并从噪声分布中生成合成轨迹。例如,Mir等人[33]使用这种方法从蜂窝电话网络中发布呼叫详细记录(CDRs)。它们增加了拉普拉斯噪音t
最相关的工作。[19-22]中的方法与我们的工作最为相关。[19]等人提出了DPT(差异私有轨迹),该系统利用层次参考系统在多个分辨率下离散空间域,并构建一组前缀树,每个树参考不同的空间分辨率,用于轨迹合成。与[18]中的前缀树不同,DPT通过将具有相同前缀的轨迹段的可变长度n-g分组到每个参考系统的相同分支中来构建每个前缀树。起始段的n克与任何其他普通n克相同,并在相同的水平上分配与普通n克相同的隐私预算。起始段的方向指示能力可能没有得到很好的保留。此外,由于一致性强制操作,添加到较低级别的噪声可以传播到更高的级别(图3(a)),从而影响相应的马尔可夫过程,这可能导致更多的数据效用丢失。Gursoy等人的[20]设计了AdaTrace,一种使用四个空间和统计特征的方法,其中包括一个密度感知
为了更好的初始轨迹段模拟。在第5节中,我们通过实验比较了DPTraj-PM和[19-22],并证明了DPTraj-PM提供了更好的数据效用。让D={����|i=0,1,...,|D|−1}表示具有|D|轨迹的原始轨迹数据集,����为D.定义1的第i个轨迹(原始轨迹[27])。原始轨迹����={(����������,������)|��=0,1,...,|����|−1}是一组|����|元组,每个元组由一个位置点����������和一个时间戳������(������≤����+1��).组成其第j个位置点����������进一步表示为(����������。��, �������� �� .��),在那里(����������。��, �������� �� .��)是指����������的经度和纬度。在这项工作中,我们专注于原始轨迹的空间特征。因此,����被给定为����={����������|��= 0,1,……,|����|−1}作为论文的其余部分。这些位置的经纬度坐标通常记录在一些连续的域��中。为了模拟从一个位置到另一个位置的移动,我们在合成轨迹生成过程中考虑许多可能性。限制模型的大小
概率����[����+1=��|����−��+1����−��+2⋯����]被称为m阶马尔可夫过程的跃迁概率
图4:一个序列数据集及其前缀树的示例: (a)是一个序列数据集,(b)是与图4(a).对应的前缀树任何m个符号的任何序列��都称为m克。设c(��,��)为��在��中出现的总次数。所有��=����−��+1����−��+2⋯����的转移概率的集合可以使用所有m-克和(m+1)-克计数的集合来估计,即����[����+1=��|����−��+1����−��+2⋯����]=��(����,��)��(��,��).(2)例如,在图4(a)中给定一个2克的��=��3��0,我们可以得到��(����5,��)=1,��(��,��)=3,,因此x的下一个位置将是��5的概率是����[����+1=��5|��3��0]=0.333.3.4差异隐私差异隐私(DP)[16]是一个隐私的概念,旨在在数据集发布时保护个人的敏感信息。给定两个相邻的数据库��1和��2(即��1和��2只在一条记录上有所不同),如果一个随机算法A限制了从��1和��2获得相同答案的概率差,则满足微分隐私。A返回的输出应该对任何特定记录的参与都不敏感
△��=��������1,��2‖��(��1)−��(��2)‖1,(4)用于任何邻近数据库��1和��2。定理1(拉普拉斯机制[16])。对于任何函数F:��→Rd,返回:��(��)=��(��)+������(∆��/��),(5)的随机算法��满足��-微分隐私,其中Lap(��)是一个具有概率密度函数����(��|��)=2 1����−|��|��.的拉普拉斯随机变量在实现差异隐私的方法中,我们利用了两个重要的特性:定理2(顺序组合[40])。设Ai是一个提供����-微分隐私的随机算法。然后,数据库��上的Ai序列(��)(��∈��)提供了(∑������)-差异隐私。定理3(后处理[41]):让Ai是一个提供����-微分隐私的随机算法。然后公开发布Ai(��)(��∈��)的输出或将其作为另一个算法的输入,不会违反����-微分隐私。我们在第4节中利用这两个性质证明了我们的噪声前缀树构造满足����-DP,并且噪声m阶马尔可夫过程构造满足����-DP,其中����和����是隐私预算分配
4.2空间离散给定一个原始轨迹数据集D={����|i=0,1,...,|D|−1}和一个连续空间域��可以覆盖整个空间D(例如,Z大于或等于D的位置点的最小封装矩形),我们首先使用一个参考系统����离散��,并映射轨迹的位置点锚点。参考系统是通过在空间上施加一个��ℎ×����均匀的网格,并选择细胞的质心作为锚点来构建的。让����={����|��= 0,1,……,��ℎ×����−1}表示����的锚点集。我们在表1中总结了论文的符号。
如果我们直接使用锚点之间的转换来模拟D的位置点之间的移动,每个锚点����∈AP都有��ℎ×����转换的可能性,即��ℎ×����−1从����转换到AP的其他锚点,以及从����转换到停止符号#。这种模拟可能不可取,因为一些转换可能不太现实,例如,从一个非常大的区域上从左下单元格转换到右上单元格。不适当的模拟不仅会增加我们将在第4.3节中构建的模型的大小,而且还会给数据带来不必要的噪声。进一步限制模型大小和模拟相邻位置点之间的连接,我们插入点原始轨迹插值,以确保每个锚点����∈AP最多只有9过渡的可能性,即从����过渡到8相邻单元的锚点(图6),从����过渡到停止符号#。我们称����的8个相邻细胞为����的邻近细胞。设邻居(����)表示����的相邻单元的锚点集和停止符号#。
图6:一个锚点的相邻单元格。为了简单起见,我们使用一个锚点来表示映射到同一锚点的相邻位置点。然后,为了表示轨迹的结束,在每个轨迹中插入一个停止符号#作为其最后一个元素。在这一步之后,,����变成了������={������|��=0,1,...,|������|−1,������∈{����∪{#}},,其中������是������或#的第j个锚点,|������|表示������的长度。原始轨迹数据集D变为Dc={������|i=0,1,...,|Dc|−1}(|Dc|=|D|)。图7显示了空间离散化的示例。图7(a)中的参考系统有一个锚点集{��0,��1,��2,��3,��4,��5},图7(c)显示了图7(b).中的原始轨迹数据集的校准版本
图7:空间离散化的一个例子: (a)为参考系统,(b)为原始轨迹数据集,(c)为图7(b).中的轨迹数据集的校准版本4.3在这一步中,我们建立了一个移动性模型,它使用一个高度-(m+2)前缀树来模拟初始轨迹段,以及一个m阶马尔可夫过程来模拟下一个位置点选择机制,并基于DP向该模型添加噪声。隐私预算����和����基于参数��共享整个隐私预算��,其中����=����,����=(1−��)��和0<��<1。4.3.1Noisy的前缀为树的构造。设����=(��,��,��������)为Dc的噪声前缀树。为了满足差异隐私性,我们需要确保从锚点宇宙AP中可以导出的所有可能的序列都出现在噪声前缀树����中。因此,AP的所有锚点都出现在第一级。对于以下级别的每个节点��∈��,使用它的相邻锚点和停止符号#,即邻居(��)来派生其子节点。在这个过程中,我们假设低层次的节点比高层次的节点更重要
��(��)=∑��(��)��∈��ℎ������������(��),(6),其中��ℎ������������(��)表示��的子节点集。设h(h = m + 2)为前缀树的高度。给定校准的轨迹数据集Dc和锚点集AP,我们使用以下5个步骤构建了噪声前缀树����。步骤1:创建一个具有虚拟根��������的空树����=(��,��,��������)。步骤2:生成第一级AP的所有锚点的节点。Step 3: For each node �� ∈ �� at the current level i (i = 1, 2, ..., ℎ − 1), calculate ��(��) by adding Laplace noise to |����(���� , ��)|, ��(��) = |����(���� , ��)| + ������(∆����(∙)/����,��) , (7) where ����,�� = log(ℎ−��+��) ∑ log(ℎ−��+��) ℎ−1 ��=1 × ����, (8) �� is an adjustable parameter, and ∆����(∙) is the sensitivity of ����(⋅).|����(����,��)|被认为是在这个阶段对����的一个查询。对于节点��,����(⋅)是|����(����,��)|。由于在Dc中添加或从Dc中移除轨迹,|����(⋅)|的值最多变化1,我们有∆����(∙)=1。如果��(��)小于1或其前缀(��,����)以停止符号#结束,则该节点将不会进一步展开,否则,生成其子节点fo
因为∑������∈��≤����,,我们得到了����(����(����)=����)����(����(����′)=����)≤exp(∑������∈��)≤������.(12)即噪声加法满足����-DP,因此噪声前缀树构造满足����-DP。4.3.2有噪声的m阶马尔可夫工艺施工。在这一步中,我们使用一个转移矩阵Q来表示一个m阶马尔可夫过程。我们首先通过扫描直流的所有轨迹来计算频率矩阵����,向����添加噪声,然后从噪声����(用����表示)推导出过渡矩阵Q。为了满足不同的隐私性,我们需要保证从宇宙中可以得到的每个可能的(m+1)-克(����∪{#}-克的频率出现在����中。对于直流的每个轨迹,元素是相邻单元的锚点。因此,我们只需要考虑合格的(m+1)-克。如果对于∀0≤��<��,,我们有����+1∈邻居(����),那么我们称一个(m+1)-克����+1=��0��1⋯����(����∈{����∪{#}},��= 0,1,...,��)为合格的(m+1)-克。����+1可以由����+1=��������获得合格的m-gram����=��0��1⋯����−1。设����为符合条件的m克直流体数。我们构造了一个频率矩阵����
其中����(��������,������)是这个阶段的私有的。在������中的��������的数量。查询��(∙)是我们想要做的不同步骤3的函数:对于每个元素������,��∈����(��满足��������是����的合格(m + 1)-gram),通过在������,��,������,��=������,��+������(∆��(∙)/����),(14)中添加拉普拉斯噪声来计算其值,其中∆��(∙)是��(∙)的灵敏度。由于在Dc中添加或从Dc中移除轨迹,|��(∙)|的值最多变化1,我们有∆��(∙)=1。步骤4:初始化一个与����大小相同的转移矩阵Q={����,��=0|��= 0,1,...,����−1,��=0,1,...,|����|},并通过����,��=������,��∑������,��|����|��=0⁄.计算����,��∈��(15)图7(c)中校准的轨迹数据集的二阶马尔可夫过程构造实例如图8所示。为简单起见,图8(a).中列出了6行频率矩阵����加入噪声后,图8(a)中的噪声频率矩阵����的一个例子如图8(b).所示图8(c)给出了由图8(b).推导出的过渡矩阵Q定理5。噪声m阶马尔可夫过程常量
4.4合成轨迹生成在这一步中,我们使用有噪声的前缀树����和过渡矩阵Q来生成合成轨迹数据集Dsyn。采用����来确定初始轨迹段,Q用于为每个轨迹选择下一个锚点。����的节点可分为非广义节点和广义节点两种类型。非广义节点与以停止符号#结束的锚点序列关联,而广义节点则不关联。对于����的非广义节点����,我们通过将前缀(����,����)的c(����)副本附加到输出中来生成其相应的轨迹。对于����的最后一级(即(h-1)级)的广义节点����,生成具有初始段前缀(����,����)的c(����)轨迹。设����=前缀(����,����)=��0⋯��ℎ−��−1��ℎ−��⋯��ℎ−2(��ℎ−2=#)是这样的轨迹之一,����=��ℎ−��−1��ℎ−��⋯��ℎ−2是����的最后一个m个锚点序列,这是一个合格的m个克。我们选择一个锚点����(����∈{AP∪{#}})作为����的下一个点,概率为����,��(����,��∈��),和
图9:原始数据集的位置点密度分布: (a) Taxi-1,(b) Taxi-2和(c)直升机。5.1.2Utility指标。为了评估合成数据库��������的效用,我们在D的空间域上施加了一个统一的网格U,并在单元格水平上计算了7个指标。我们把每个单元格看作是一个离散的位置。设Cell={����������|��= 0,1,...,��−1}为U的单元格集,��为Cell的元素数。Ÿ位置指标。不同地点的受欢迎程度之间的相似性和差异性对于许多地理数据分析任务都很重要,如火锅发现和POI推荐。我们使用三个指标来评估地点受欢迎程度之间的相似性和差异性:位置访问平均相对误差(位置AvRE)、位置访问比例和位置肯德尔-tau(位置KT)系数[20-21]。Let ������(���������� ,��) be the number of times ���������� visited by the traces of D. We define the visit relative error (RE) of ���������� as ���� = |������(���������� ,��)−������(���������� ,��������)| ������{������(���������� ,��),��} , where λ is a sanity bound that mitigates the effect of c
(������(���������� ,��) > ������(���������� ,��))⋀ (������(���������� , ��������) > ������(���������� , ��������)) (������(���������� ,��) < ������(���������� ,��))⋀ (������(���������� , ��������) < ������(���������� , ��������)) .然后,通过位置����=(一致位置对)−(不一致位置对)��(��−1)/2计算位置KT系数[20-21]。Ÿ频繁的模式指标。采矿。频繁的模式是许多应用程序的中心任务,包括交通流分析和路线导航。我们使用频繁模式平均相对误差(FP AvRE)[17,20]和频繁模式Kendall-tau(FP KT)系数[21,23]来测量FPs在��������中是否被很好地保存下来。假设模式��由单元格的有序列表表示。让������(��,��)表示��中��出现的次数,而FP����(��)={����|��= 0,1,……,��−1}是��中的top-k模式。FP AvRE [17,20]由FP��������=∑|������(����,��)−������(����,��������)|������(����,��)����∈FP����(��)��.计算FP KT系数[21,23]用于评估频繁斑块之间的相似性和差异性
5.2与相关工作、5.2.1Related工作的比较。将DPTraj-PM与四种最相关的作品进行了比较: DPT [19]、AdaTrace [20]、DP-MODR [21]和LDPTrace [22]。[19-20,22]的实现来自各自的作者。在比较中,在适用的情况下,使用了作者在他们的论文或其代码中推荐的参数(表3)。对于[19],我们测试了不同的分辨率集,并采用了产生最佳平均数据效用的集。[20]在第一级使用统一网格,在第二级使用自适应网格划分。我们已经为第一级测试了不同的网格大小,并使用了产生最高平均数据效用的网格大小。对于[21],我们已经测试了对成本敏感的路径树的不同高度,并利用了产生最佳平均数据效用的高度。[22]使用了一个统一的网格。由于这五种方法中使用的拉普拉斯机制和指数机制都是概率性的,所以我们对每个实验重复5次,并报告[19-22]和DPTraj-PM的平均结果。表3:实验参数设置。数据集[19] [20] [21] [22]提出的地球分辨率集= {0.016,0.032,0
��比出租车1和出租车2要多。另一方面,Taxi-1比Taxi-2和Geolife具有更高的轨迹密度和更高的平均每个单元的位置点,但并不总是保留更多的数据效用。这可能是因为数据效用也受到位置点密度分布的影响(图9)。[19-22]和DPTraj-PM依靠细胞之间的连接来模拟轨迹。对于不同的数据集,每个单元格可能包含不同的轨迹,这可能导致相当不同的聚合属性,从而导致不同的数据效用。表4:DPTraj-PM与其竞争对手的比较。每个类别的最佳结果以粗体显示。对于位置KT和FP KT,值越高越好。对于剩余的指标,值越低越好。指标��出租车-1出租车-2直升机[19][20][21][22][19][20][21][22][19][20][21][22][19][19][20][21][22][20]位置访问0.0.11.4532.7040.6552.3700.3951.9712.9770.62720.3020.3670.5110.6682.240.6740.6920.620.1.10210.6222.2910.2910.3630.3670.3511.25710.4581.1570.4860.8730.60430.6800.6251.4070.199Lo
DP-MODR [21]为每个单元构建一个修剪过的噪声成本敏感路径树,以模拟最频繁的模式。在合成轨迹生成过程中,它可能会不充分考虑优先轨迹段,从一个噪声代价敏感轨迹树穿越到另一个轨迹树,因此可能会失去一定的数据精度。此外,只使用最常见的模式而忽略一些不太频繁的模式也可能会阻碍它保留更多的聚合属性。DPTraj-PM提供了比LDPTrace [22]更好的数据实用程序。由于使用了一阶马尔可夫移动性模型,该模型与其他两个核心组件共享整个隐私预算,LDPTrace可能无法保留原始轨迹的足够运动模式,因此可能无法保持非常理想的数据效用。5.3参数分析在DPTraj-PM中有两个重要的参数:马尔可夫过程的阶数m和网格尺寸��ℎ×����。在这里,我们将分析它们是如何影响数据实用程序的。此外,我们还报告了对有噪声前缀树的隐私预算分配的评估。5.3.1m对数据效用的影响。理论上,如果我们固定了建议的所有参数
图12:DPTraj-PM在Geolife上的数据效用保存性能(��= 1)。��ℎ×����的5.3.2Impact。在空间离散化步骤中,我们在空间域上施加一个��ℎ×����均匀网格,并基于插值将位置点映射到相邻单元的锚点。这不可避免地会导致信息的丢失。单元格越小,校准后的轨迹提供的精度就越高。但是随着每个细胞大小的减小,穿过一个细胞的轨迹的数量将会减少。对于一个不够大和/或不均匀分布的数据集(例如,Taxi和Geolife),这可能会导致模型对噪声变得更加敏感,从而可能导致合成轨迹的数据效用损失。因此,为了获得良好的整体数据效用,网格大小既不应太粗也不应太细。在图13中,我们绘制了具有不同网格大小的Taxi-2上的结果。我们观察到,当��ℎ×����=20×20比��ℎ×����=12×12、14×14×14,16×16×16、1818,22×22,24×24时,数据效用保存得更好。这验证了我们的分析。
图13:DPTraj-PM在不同网格大小的Taxi-2上的数据效用保存性能(��= 1,m = 3)。关于有噪声的前缀树的隐私预算分配的5.3.3Evaluation。演示递减的隐私预算分配方法的有效性,我们利用噪声前缀树建设,我们取代这种分配方法与统一分配[18]和几何分配[19]DPTraj-PM,分别称为提出统一和地理,和评估他们的效用。图14中的结果表明,利用递减的隐私预算分配方法的DPTraj-PM比采用均匀分配或几何分配的方法表现得更好。
图14:在地榄(��= 1,m = 4)上,不同隐私预算树构造的DPTraj-PM的数据效用保存性能。本文提出了一种基于前缀树和模阶马尔可夫过程的微分私有轨迹合成器DPTraj-PM。DPTraj-PM使用前缀树来模拟初始轨迹段,并采用m阶马尔可夫过程来选择下一个位置点。为了保证隐私保护和保护数据效用,在不同的隐私条件下,精心设计了一种噪声添加方法。在真实数据集上的实验表明,DPTrajPM在数据效用和准确性方面远远优于最先进的一般技术[19-22]。参考[1]亚历克斯·米兰达-帕斯夸尔,帕特里夏·格拉-巴尔博亚,哈维尔·帕拉-阿诺,乔迪·福恩和索尔斯滕·斯特鲁夫。2023.SoK:轨迹数据的差异私人发布。《关于隐私增强技术的诉讼程序》,496-516。[2]马可·菲奥雷,¸,卡西库利,扎维,坎奇,法国,多米尼克·赫洛兹,乌尔里希
人类的流动性。科学报告3、1、1-5。[4]弗洛里蒙德豪索,卢克罗彻,和伊夫-亚历山大德蒙乔耶。2022.关于在实践中实现不同隐私的困难:聚合位置数据中的用户级保证。自然交流,13、1、1-3。[5]金凤梅、文华、法国、赵平福、奥罗斯卡、周晓芳。2022.隐私保护轨迹数据发布的调查与实验研究。IEEE知识与数据工程学报35,6,5577-5596。申[6],郑宏勋,赵忠忠,尹世贤,金大妍。2020.基于生成式对抗网络的用户移动性综合:一项调查。2020年第22届国际先进通信技术会议(ICACT)。IEEE,94-103年。[7]孔向杰、乔陈、侯明亮、王辉、冯峰。2023.移动性轨迹生成:一个调查。人工智能评论56,S3057-S3098。[8] Osman Abul,弗朗西斯科·邦奇,和Mirco·南尼。2008.永远不要孤独地行走:在移动的物体的数据库中,匿名性的不确定性。在IEEE第24届国际数据工程会议上。IEEE,376-385。[9] Naghizade
应用程序180、115120。耿[32],彼得,哦,维斯瓦纳斯。2015.不同隐私保护中的楼梯机制。IEEE在信号处理中的选定主题的期刊9,7,1176-1184。[33]达拉赫山J.米尔,西布林·艾萨克曼,拉蒙·卡塞雷斯,玛格丽特·马尔托诺西,和丽贝卡·N.赖特。2013.人类流动性的不同私有建模。2013年IEEE大数据国际会议。IEEE公司,580-588年。[34]的罗伊,穆拉特·坎塔乔格鲁和拉坦亚·斯威尼。2016.人体运动数据的实际差异私有建模。在IFIP数据和应用安全和隐私年会。施普林格,Cham,170-178。[35]金凤梅、文华、阮博宇、周晓芳。2023.基于频率的随机化,以保证空间轨迹中的差异隐私。2022年IEEE第38届国际数据工程会议。IEEE,1727-1739年。张[36]静、黄启汗、黄怡瑞、丁倩、蔡培伟。2023.DP-TrajGAN:一种具有不同隐私性的隐私感知轨迹生成模型。未来一代的计算机系统142,25-40。[37] Stella Ho,酉阳区,区