巧用 CTE 公共表达式删除 MySQL 重复数据-CFANZ编程社区

一段时间后，大多数应用程序可能由于bug而出现重复行，这不仅影响用户体验，还增加了存储需求并降低数据库性能。可以通过一个 SQL 查询来完成整个清理过程，从而有效解决这一问题。

使用范例

-- 创建表
CREATE TABLE users (
    id INT AUTO_INCREMENT PRIMARY KEY,
    name VARCHAR(100),
    email VARCHAR(100)
);

-- 插入数据，包括重复数据
INSERT INTO users (name, email) VALUES 
('Alice', 'alice@example.com'),
('Bob', 'bob@example.com'),
('Alice', 'alice@example.com'),  -- 重复数据
('Charlie', 'charlie@example.com'),
('Bob', 'bob@example.com');      -- 重复数据

巧用 CTE 公共表达式删除 MySQL 重复数据

WITH duplicates AS (
  SELECT id, ROW_NUMBER() OVER(
    PARTITION BY name, email
    ORDER BY id DESC
  ) AS rownum
  FROM users
)
DELETE users 
FROM users 
JOIN duplicates USING(id) 
WHERE duplicates.rownum > 1;

输出结果：

mysql> select * from users;
+----+---------+---------------------+
| id | name    | email               |
+----+---------+---------------------+
|  1 | Alice   | alice@example.com   |
|  2 | Bob     | bob@example.com     |
|  3 | Alice   | alice@example.com   |
|  4 | Charlie | charlie@example.com |
|  5 | Bob     | bob@example.com     |
+----+---------+---------------------+
5 rows in set (0.00 sec)

mysql> WITH duplicates AS (
    ->   SELECT id, ROW_NUMBER() OVER(
    ->     PARTITION BY name, email
    ->     ORDER BY id DESC
    ->   ) AS rownum
    ->   FROM users
    -> )
    -> DELETE users 
    -> FROM users 
    -> JOIN duplicates USING(id) 
    -> WHERE duplicates.rownum > 1;
Query OK, 2 rows affected (0.00 sec)

mysql> select * from users;
+----+---------+---------------------+
| id | name    | email               |
+----+---------+---------------------+
|  3 | Alice   | alice@example.com   |
|  4 | Charlie | charlie@example.com |
|  5 | Bob     | bob@example.com     |
+----+---------+---------------------+
3 rows in set (0.00 sec)