数据匿名化

通过删除或编码连接个人和存储数据的标识符来保存私人或机密信息的过程

写的 CFI团队

2022年10月6日更新

什么是数据匿名化?

数据匿名化是指通过删除或编码将个人与存储数据连接起来的标识符来保存隐私或机密信息的方法。它是为了保护个人或团体的私人活动公司同时保持收集和交换数据的可信度。

数据匿名化

数据匿名化是组织可以用来遵守严格的数据隐私法规的技术之一，这些法规要求个人身份信息(PII)的安全性，比如健康报告、联系信息和财务细节。

然而，即使标识符的数据被清除，攻击者仍然可以使用反匿名化技术来追溯数据匿名化的过程。由于数据通常通过几个来源流动，其中一些是向公众开放的，反匿名化方法将交叉引用来源并暴露个人信息。

总结

数据匿名化是通过删除或编码连接个人和存储数据的标识符来保存私人或机密信息的过程。
数据匿名政策确保公司理解并执行其保护敏感、个人和机密数据的职责。
收集匿名数据并从数据库中删除身份将限制从结果中提取私人信息的能力。

数据匿名化技术

1.数据屏蔽

数据屏蔽是指披露修改值的数据。数据匿名化是通过创建数据库的镜像并实现更改策略来实现的，例如字符变换、加密、术语或字符替换。例如，值字符可以替换为“*”或“x”这样的符号。这使得识别或逆向工程变得困难。

2.Pseudonymization

假名化是一种数据去标识工具，它用假标识符或假名替换私人标识符，例如将“John Smith”标识符替换为“Mark Spencer”标识符。它保持统计精度和数据机密性，允许更改的数据用于创建、培训、测试和分析，同时保持数据隐私。

3.泛化

泛化涉及到有意排除一些数据，使其不易识别。数据可以被修改为一系列范围或具有合理边界的大区域。例如，地址的门牌号可能被删除，但要确保不会删除小巷的名称。目的是删除一些标识符，同时保持数据的准确性。

4.数据交换

数据交换——通常称为排列和洗牌——重新排列数据集属性值，使它们不符合原始信息。切换包含可识别值(如出生日期)的属性(列)可以对匿名化产生巨大影响。

5.数据扰动

数据扰动通过应用四合编号方法和添加随机噪声来对初始数据集进行微小修改。这组值必须与干扰成正比。基数小会导致匿名化效果差，基数大则会降低数据集的效用。例如，年龄或门牌号等值的四舍五入应该以5为基数。

6.合成数据

合成数据是算法生成的信息，与任何实际情况无关。这些数据被用来构建人工数据集，而不是修改或利用原始数据集，并牺牲隐私和保护。

合成数据方法包括基于原始数据集中包含的模式构建数学模型。标准差线性回归,中位数，或其他统计方法可用于产生综合结果。

数据匿名化的优点

1.防止可能失去的市场份额和信任

数据匿名化是一种确保公司理解并执行其保护敏感、个人和机密数据的职责的方法，因为数据保护要求非常复杂，根据业务和客户所在地的不同而不同。因此，它保护公司免受可能失去的市场份额和信任。

2.防止数据滥用和内部人员利用的风险

数据匿名化是防止数据滥用和内部人员利用风险的一种保障措施，这些风险会导致法规遵从性的失败。

3.增加治理和结果的一致性

数据匿名化还增加了结果的治理和一致性。干净、准确的数据可以让你利用应用程序和服务，保护大数据分析和隐私。它通过提供受保护的数据来产生新的市场价值，从而推动数字转型。

数据匿名化的缺点

合规规定要求网站在收集个人信息时必须获得用户的许可，比如饼干、IP地址和计算机id。收集匿名数据并从数据库中删除身份将限制从结果中提取有意义信息的能力．

例如，匿名信息不能用于定向目的或个性化用户体验。

数据匿名化

什么是数据匿名化?

总结

数据匿名化技术

1.数据屏蔽

2.Pseudonymization

3.泛化

4.数据交换

5.数据扰动

6.合成数据

数据匿名化的优点

1.防止可能失去的市场份额和信任

2.防止数据滥用和内部人员利用的风险

3.增加治理和结果的一致性

数据匿名化的缺点

更多的资源