《数据安全实践指南》- 数据处理安全实践-数据脱敏-CFANZ编程社区

数据脱敏

数据脱敏是指通过对敏感的数据进行变形和加密，将处理过的数据呈现在用户面前，从而既能满足数据挖掘的需求，又能实现对敏感数据的有效保护。

建立负责数据脱敏的职能部门

为公司制定整体的数据脱敏原则和制度。
数据脱敏部门的管理人员为公司定义不同等级的敏感数据脱敏处理场景。
具备标准操作流程和标准方法为公司建立统一的安全审计机制，用于记录和监督数据脱敏各阶段的操作行为，以方便后续的问题排查和事件溯源等。
在申请数据权限的阶段，数据脱敏管理部门还应该提供评估使用真实数据必要性的服务支持，并确定在当前业务场景下应该采用的数据脱敏规则和方法。

明确数据脱敏岗位的能力要求

数据脱敏管理人员需具备如下能力：
具备良好的数据安全风险意识。
熟悉国家网络安全法，以及所属行业的政策和监管要求。
具备一定的数据安全管理经验，拥有良好的数据脱敏专业知识基础。
熟悉主流厂商的数据脱敏解决方案。
熟悉常规的数据脱敏技术，能提前分析出数据脱敏技术过程中可能存在的安全风险。
能够与具体的业务场景相结合，保持数据脱敏过程中业务与安全之间的平衡。
具备对数据脱敏技术方案进行定制化的能力。
能够基于组织机构内部各级别的数据建立行之有效的数据脱敏解决方案。
数据脱敏部门的实施需具备如下能力：
具备良好的数据安全风险意识。
熟悉法律法规及政策要求。
熟悉主流厂商的数据脱敏方案。
熟悉市面上常用的数据脱敏工具。
拥有一年以上的数据脱敏实战经验。
熟悉公司内部的应用场景和业务场景。
具备一定的应急响应能力，当数据脱敏过程中出现了突发事件或意外情况时，能够快速响应并及时向上级汇报，以保障原始数据的安全性，以及脱敏数据的完整性和可用性等。

数据脱敏岗位的建设及人员能力的评估方法

通过内部审计，外部审计等形式以调研访谈，问卷调查，文件调阅，技术检测等多种方式实现。
1.调研访谈
主要包含数据脱敏管理人员和技术人员的访谈两大部分。
对数据脱敏部门管理人员的访谈内容为：

确认其在制定数据脱敏原则之前是否按照数据分类分级的标准对需要脱敏数据进行定义。
是否明确指定了需要脱敏的数据(例如：个人信息数据，组织敏感信息，国家重要数据等)。
是否能够为公司制定整体的数据脱敏原则和制定。
是否具备足够的相关法律法规知识和风险安全意识。
是否能够制定出定制化的数据脱敏解决方案。
是否平衡了系统开销，业务需求，最小权限原则，最大防止信息泄露等要求。
确认其在制定定制化数据脱敏解决方案时是否切合实际情景。
是否建立了安全审计机制，并覆盖了数据脱敏的各个阶段。

对数据脱敏部门技术人员的访谈内容为：

确认其是否拥有丰富的数据脱敏案例实施经验。
是否熟悉数据分类分级结果。
是否明确哪些数据需要脱敏。
是否能够胜任在不同场景下对数据实施脱敏的工作(例如：针对不同数据使用者的职责，业务范围和权限，应该采用不同的数据脱敏方法来实施，对开发人员的数据脱敏处理可以使用扰乱技术并报流熟悉特征，而对投屏数据则可以使用掩码方式隐藏敏感信息)。
确认实施人员是否熟悉常见的数据脱敏工具。

2.问卷调查

数据脱敏管理人员是否制定了针对公司的，有效的数据脱敏原则和制度。
是否根据公司不同的业务需求制定了定制化的数据脱敏解决方案。
是否定义了不同等级的敏感数据脱敏处理场景，流程和方法等。
是否规定了标准统一的数据脱敏工具，以提供静态脱敏和动态脱敏规则。或者其他基于场景需求的自定义脱敏规则。
数据脱敏管理人员是否设立了安全审计机制，并贯穿整个数据脱敏生命周期。
确认是否熟悉常规的数据脱敏技术。
是否可以分析出数据脱敏过程中存在的安全风险。
是否可以在数据脱敏的具体场景中做到业务和安全之间的需求平衡。

3.流程观察
主要观察公司数据脱敏部门管理团队和技术团队两方的工作流程，并从中寻找可能的问题点和改善点。

以中立视角观察公司数据脱敏部门管理团队的工作流程，以确认其方法流程是否符合标准规范，具体如下：
为公司制定整体的数据脱敏原则和制度。
为公司定义不同等级敏感数据的脱敏处理场景的流程和方法。
为实施人员制定定制化的数据脱敏解决方案时，是否可以识别出其中可能存在的安全风险，是否贴合组织机构的内部架构，期间的方法流程是否符合标准规范。
数据脱敏前所执行的敏感数据定义流程是否符合标准。
是否依据了数据分类分级的结果导向。
以中立视角观察公司数据脱敏部门技术团队的工作流程，以确认其方法流程是否符合标准规范，具体如下：
真实业务场景下实施数据脱敏服务。
平衡数据的可用性和安全性。
进行审计记录和应急响应。
上述3点操作是否可以识别出其中可能存在的安全风险，方法流程是否符合标准流程。
在使用与配置特定的数据脱敏工具时是否依据了管理人员定义的标准使用方法，从而确认该团队的实际工作情况。

4.技术检测
数据脱敏阶段的技术检测，需要使用技术工具检测数据脱敏工具与数据权限管理平台的联动性。

检测脱敏后的数据是否正确，正常，原始的数据格式或特定属性是否有所保留，是否能够满足开发与测试的需求。
检测数据脱敏过程中各阶段安全审计机制的工作是否正常，是否有相应的操作记录和日志记录等。

明确数据脱敏的目的

数据脱敏技术通过对脱敏数据执行数据变形操作，为用户提供虚假数据而非真实数据，从而实现对敏感数据的可靠保护，在开发，测试和其他非生产环境及外包环境中安全地使用脱敏后的真实数据集，这样就可以既不会泄露组织的敏感信息，又能达到挖掘数据价值的目的。

确立数据脱敏原则

有效性

要求数据经过脱敏处理后，原始信息中包含的敏感信息应全部移除，保证他人无法通过处理后的数据得到敏感信息。

真实性

要求脱敏后的数据应尽可能地体现原始数据的特征，且应尽可能多地保留原始数据中有意义的信息，从而降低对使用该数据的系统的影响。

高效性

应保证数据脱敏的过程可通过程序自动化实现，可重复执行。

稳定性

需要保证对于相同的原始数据，在各自输入条件一致的前提下，无论脱敏多少次，其最终得到的结果数据都是相同的。

可配置性

可通过配置的方式，按照不同的输入条件生成不同的脱敏结果，从而可以方便地按照数据的使用场景等因素，为不同的最终用户提供不同的脱敏数据。

数据脱敏安全管理内容

一个完整的数据脱敏流程包括敏感数据识别，确定脱敏方法，制定脱敏策略，执行脱敏操作，审计及溯源等步骤，期间由数据脱敏管理部门负责执行与监督数据脱敏的整个流程。
敏感数据识别-确定脱敏方法-制定脱敏策略-执行脱敏操作-审计及溯源

敏感数据识别

在进行数据脱敏操作之前，需要结合数据分类分级表对敏感数据进行识别和定义，明确需要脱敏的数据信息，一般包括个人信息，组织敏感信息和国家重要数据等。其中需要注意的是，有些信息本身可能并不是直接的敏感信息，但是可以通过与其他的一些信息结合后推断出敏感信息，此类信息也应该纳入敏感数据的范围。
个人信息

是指能够单独或与其他信息相结合，以识别特定自然人的身份或反映特定自然人活动情况的各自信息。

组织敏感信息

是指涉及组织的商业秘密，经营状况和核心技术的重要信息，组织敏感信息包括但不限于客户信息，供应商信息，产品开发信息，关键人事信息和财务信息等。

国家重要数据

是指组织在境内收集，产生和控制的不涉及国家秘密，但与国家安全，经济发展，社会稳定及企业和公共利益密切相关的数据。国家重要数据包括上述这些数据的原始数据和衍生数据。

数据脱敏工作人员在识别敏感数据的过程中，需要注意以下事项：

定义数据脱敏工作执行的范围，并在该范围内执行敏感数据的识别工作。
可通过数据内容直接匹配，或者通过正则表达式的方式进行匹配，以发现敏感数据。
尽量利用自动化工具执行数据识别工作，并降低该过程对生产系统造成的影响。
尽量选择具有扩展机制的数据识别工具，以便于根据业务需要自定义敏感数据的识别逻辑。
固化常用的敏感数据识别规则，如身份证，手机号等敏感数据的识别规则，从而避免重复定义数据识别规则。

数据脱敏工作人员在标识敏感数据时，需要注意以下事项：

应该尽早在数据的收集阶段就对敏感数据进行识别和标识，以便在数据的整个生命周期阶段对敏感数据进行有效管理。
敏感数据的标识方法应该确保敏感数据标识信息能够随敏感数据一起流动，并且保证其难以删除和篡改，从而可以对敏感数据进行有效跟踪，以确保敏感数据的安全合规性。
敏感数据的标识方法应能同时支持对静态数据和动态流数据的敏感标识。

确定脱敏方法

数据脱敏方法可分为静态数据脱敏和动态数据脱敏两种方案。

静态数据脱敏方法是指原始数据进行一次脱敏操作后，脱敏后的结果数据可以多次使用，该方法非常适用于使用场景比较单一的场合。
动态数据脱敏方法是指在显示敏感数据时，针对不同的用户需求，对显示数据进行不同的屏蔽处理的数据脱敏方式。它要求系统提供相应的安全措施，以确保用户不能绕过数据脱敏层而直接接触敏感数据，动态数据脱敏方法比较适合于用户需求不确定，使用场景比较复杂的情形。

制定脱敏策略

遵循个人隐私保护，数据安全保护等关键领域的法律法规，行业监管规范或标准，并以此作为数据脱敏规则必须遵循的原则。
在“最小够用”的原则下，明确待脱敏的数据内容，以及符合业务需求的脱敏方式，数据脱敏的方式主要由泛化，抑制，扰乱和有损等。
根据不同用户对数据的访问需求和当前的权限设置情况，分析并整理出存在数据脱敏需求的业务场景，例如：对开发人员使用的数据，可采用扰乱技术在脱敏后保留数据的属性特征等；对投屏展示用的数据，可以选择以掩码的方式隐藏其中的敏感信息。
应配置统一的数据脱敏工具，且该脱敏工具需要具备静态脱敏和动态脱敏，且能够基于场景的不同需求自定义脱敏规则的功能，以满足不同业务的需求。
应固化常用的敏感数据脱敏规则，如身份证号，手机号等常用数据的脱敏规则，避免数据、脱敏项目在实施过程中重复定义数据脱敏规则。

执行脱敏操作

需要注意的事项如下：

对于脱敏任务的管理，可考虑采用自动化管理的方式提升任务管理的效率。
执行对数据脱敏任务的运行监控，关注任务执行的安全性，以及脱敏任务对业务的影响。

脱敏操作的审计及溯源

数据脱敏的各个阶段都需要加入安全审计机制，以及严格且详细地记录数据处理过程中的相关信息，形成完整的数据处理记录，以备后续问题的排查分析和安全事件的取证溯源。同时，还应设置专人定期对脱敏相关的日志记录进行安全审计，发布审计报告，并跟进审计中发现的异常。

使用技术工具

一个有效的数据脱敏工具应包含两部分，可靠的数据脱敏技术和合理的脱敏规则。
具备良好的适配性，就是能够应用在各种不同的环境，例如：生产环境，开发环境，测试环境，外包环境等。
支持丰富的数据类型，针对不同的应用场景种不同类型的数据，脱敏后的数据不能破坏数据原有的类型和组成结构。
静态脱敏和动态脱敏最大的区别就是在使用时是否需要与原数据进行连接。

静态脱敏是将原数据源按照脱敏规则生成一个脱敏后的数据源，使用的时候是从脱敏后的数据源获取数据，静态脱敏一般用于开发，测试，分析等需要完整数据的场景。
动态脱敏则是在使用时直接与原数据源进行连接，然后在使用数据的中间过程中进行实时的动态脱敏操作。

静态脱敏技术

静态脱敏是指利用截断，偏移，规整，替换，重写，加密等算法，对原数据进行脱敏操作，并将脱敏后的数据导入到脱敏后的数据源中。
静态脱敏工具一般都支持文件到文件脱敏，文件到数据库脱敏，数据库到文件脱敏，原库脱敏，异库脱敏等脱敏方式。
1.数据获取
静态脱敏的第一步，是从原数据源中获取数据，目前，静态脱敏工具一般是通过以下几种方式来获取数据。

1）代理软件
2）数据库开发接口
3）ETL技术-抽取，转换，加载

2.数据识别与脱敏

静态脱敏系统在获取到原数据源中的数据后，会对数据中的敏感数据进行自动识别，同时识别并记录数据之间的结构关联关系。

3.数据脱敏规则

脱敏规则及其算法是静态脱敏工作的核心部分，静态脱敏规则中经常用到的技术方法包括但不限于以下几种：

1）数据截断
数据截断指的是直接在原数据的基础上截掉业务使用时不需要的部分，从而实现数据脱敏，例如：手机号秘密找回时，通常会提示绑定手机号的开头3位数字或者最后4位数字，这里使用的就是数据截断。
2）数据偏移
数据偏移一般多用在日期时间中，其原理是让数据按照指定的偏移量向上（前）向下（后）偏移。如原数据“2022-05-08”按照5天的偏移量向下偏移脱敏后得到的数据位他“2022-05-13”。
3）数据隐藏
数据隐藏是指将原数据中的一部分隐藏起来，使用户无法读取到完整的数据，通过这种方式实现脱敏，隐藏部分的原字符可以使用特定的字符替代，常用的由",#"等。例如：（13609892322 -> 136***2322 或者张三爷 -> 张“爷）
4）数据替换
因为数据替换一般是按照指定的映射关系进行替换，所以数据替换的操作是可逆的，例如：将女性性别统一替换为"F"
5）数据重写
数据重写和数据替换的区别在于：数据重写一般是不可逆的，数据重写是按照原数据的数据格式重新生成数据，生成的数据是随机的，例如：金融行业的交易数据，1.53就可以相应地重写为5.18，格式是按照一个整数和两位小数的格式随机生成的。
6）数据加密
数据加密包括使用加密算法，散列算法，重排算法等进行的数据转换，如常见的秘密一般都是通过散列算法+盐值进行加密从而实现数据脱敏的。

动态脱敏技术

动态脱敏技术在工作时并不会改变原数据，而是通过解析业务SQL语句匹配出脱敏规则对应的条件和数据，当匹配到对应的数据和条件时，就会对业务SQL语句进行改写，改写后的SQL语句在查询数据时实际输出的数据即为脱敏后的数据。
动态脱敏的另外一个特点是可以根据不同的授权对象，进行不同级别的脱敏操作，动态数据脱敏是指在用户层对数据进行独特的屏蔽，加密，隐藏，审计或封锁等操作来进行脱敏的技术。
在部署方面，动态脱敏系统一般包含三种部署方式，分别为代理网关，透明网关，和软件代理方式。
1.代理网关
动态脱敏系统最常见的一种部署模式，在逻辑上采用旁路模式，在物理上采用串行模式。
2.透明网关
这种部署模式是将动态脱敏系统串接在应用服务器与数据库之间，这种方式跟之前WAF的透明部署模式一样，这种会形成单点故障，虽然由旁路BYPASS，但所有流量都会经过网关，从而造成网关性能瓶颈问题。
3.软件代理方式
这种方式是在数据库服务器上安装代理(agent)软件，用以监控对数据的访问请求，当请求的数据是敏感数据时，代理会利用脱敏算法对数据进行脱敏处理。

数据脱敏技术的安全性对比

动态脱敏在自身数据安全性上是高于静态脱敏的，这是由于在脱敏作业中，动态脱敏不会涉及对原数据的处理，动态脱敏改变的只是SQL语句。而静态脱敏则会对原数据进行处理，因此在处理过程中会存在比动态脱敏更多的风险点。
在数据安全保护的角度看，静态脱敏技术需要先确认脱敏系统是否也具有与数据源同样大小的存储空间。
数据脱敏需要从信息安全的职责分离的角度看，脱敏系统的管理者为安全管理员，查看敏感信息的使用数据库管理员，安全管理员不能查看敏感数据，不过这期间如果数据脱敏系统将数据脱敏过程中的数据保存到了本地，那么安全管理员就能查看到敏感数据了，这就违背了职责分离的初衷。