数据去重-CFANZ编程社区

数据去重的基本思路

数据重复问题通常分为两类：完全重复（所有字段相同）和部分重复（关键字段相同）。解决思路围绕识别、标记或删除重复项展开，需根据业务场景选择保留策略（如保留最新记录或合并数据）。

基于哈希或唯一标识的去重

为每条数据生成唯一标识（如MD5哈希），通过比对标识快速定位重复项。适用于结构化数据表或文件去重。

import hashlib

def generate_hash(row):
    # 将数据行转换为字符串并生成哈希
    row_str = ''.join(str(value) for value in row.values())
    return hashlib.md5(row_str.encode()).hexdigest()

数据库层面的去重

使用SQL语句直接去重，适用于关系型数据库。例如使用GROUP BY或DISTINCT：

-- 保留每组重复数据中的第一条
DELETE FROM table
WHERE id NOT IN (
    SELECT MIN(id)
    FROM table
    GROUP BY column1, column2  -- 关键字段
);

基于相似度算法的部分去重

对于文本或非结构化数据，可采用相似度算法（如Levenshtein距离、TF-IDF余弦相似度）识别近似重复项。

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

def find_similar(texts, threshold=0.8):
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform(texts)
    similarities = cosine_similarity(tfidf_matrix)
    return np.where(similarities > threshold)

分布式环境下的去重方案

在大数据场景下，使用布隆过滤器（Bloom Filter）高效判断数据是否存在。适合实时流水线去重。

// 使用Guava的BloomFilter
BloomFilter<String> filter = BloomFilter.create(
    Funnels.stringFunnel(Charset.defaultCharset()), 
    1000000, 
    0.01
);

if (!filter.mightContain(data)) {
    filter.put(data);
    // 处理新数据
}

数据清洗管道的建立

构建自动化清洗流程：数据标准化（统一格式）→ 关键字段提取 → 相似度计算 → 决策（合并/丢弃）。工具链可包含Apache Spark、Pandas或专用ETL工具。

业务规则定制

根据业务需求定义去重粒度：时间窗口去重（如1小时内相同数据视为重复）、字段组合去重（如姓名+手机号+地址作为复合主键）。需通过数据建模明确唯一性约束条件。

持续监控机制

建立数据质量监控，定期扫描重复率指标。配置警报阈值，当重复数据超过一定比例时触发人工检查或自动清理任务。