Doris 提升字符串类型字段作为分区和分桶字段的性能的途径-CFANZ编程社区

当分区和分桶的字段是字符串类型时，可能会面临性能挑战，如索引效率低下、内存占用大等问题。为了优化字符串类型的分区和分桶字段，可以采取以下策略：

分区优化

1. 选择合适的分区键

使用高基数（High Cardinality）列：如果字符串列具有较高的唯一值数量，它可能不适合用作分区键，因为这会导致过多的小分区，增加管理复杂度。相反，应该选择那些具有合理基数的列，例如日期范围或状态类别。
预处理数据：对于某些场景，可以通过预处理将复杂的字符串转换为更简单的标识符。例如，使用日期时间戳代替详细的日期字符串，或者通过映射表将字符串转换为整数ID。

2. 限制分区数量

避免过度细分：确保分区的数量适中，既能够有效地减少扫描的数据量，又不会造成过多的小文件问题。可以通过合并相邻的时间段或将连续的字符串值映射到有限的区间来实现。

3. 使用列表分区

如果字符串列的取值有限且固定，可以考虑使用列表分区。例如，按地区名称进行分区，将所有可能的地区名称作为分区值。

PARTITION BY LIST(region) (
    PARTITION p_north VALUES IN ('North', 'Northeast'),
    PARTITION p_south VALUES IN ('South', 'Southeast'),
    PARTITION p_west VALUES IN ('West', 'Northwest'),
    PARTITION p_east VALUES IN ('East', 'Southeast')
);

分桶优化

1. 哈希函数优化

选择合适的哈希算法：默认情况下，Doris 使用哈希函数对字符串进行分桶。为了保证均匀分布，应选择具有良好分布特性的哈希算法，并根据具体情况调整哈希函数参数。

2. 字符串截断或摘要

截断长字符串：对于过长的字符串，可以在不影响业务逻辑的前提下截取前缀或后缀部分用于分桶。这样可以减少哈希计算的工作量，同时保持足够的区分度。
使用摘要算法：应用摘要算法（如MD5、SHA-1）生成固定长度的字符串表示，然后基于此结果进行分桶。需要注意的是，摘要算法可能会引入碰撞风险，因此需谨慎评估其适用性。

3. 映射到整数ID

建立映射关系：创建一个独立的映射表，将字符串值映射到唯一的整数ID。在创建表时，使用整数ID作为分桶键。这种方式不仅提高了分桶效率，还简化了后续的数据管理和查询操作。

CREATE TABLE string_to_id_mapping (
    string_value STRING,
    id BIGINT
);

CREATE TABLE orders (
    order_id BIGINT,
    customer_id BIGINT,
    product_id BIGINT,
    order_amount DECIMAL(10, 2),
    region STRING
)
DISTRIBUTED BY HASH(id) BUCKETS 10;

在此基础上，插入数据时先查询 string_to_id_mapping 表获取对应的 id 值，再将其用于 orders 表中的 region 字段。

综合示例

假设我们有一个 transactions 表，记录了不同地区的交易信息，其中 region 列为字符串类型。我们可以采用如下优化方案：

-- 创建映射表
CREATE TABLE region_mapping (
    region_name STRING,
    region_id INT
);

-- 插入地区映射关系
INSERT INTO region_mapping (region_name, region_id) VALUES ('North', 1), ('South', 2), ...;

-- 创建交易表，使用映射后的整数ID进行分桶
CREATE TABLE transactions (
    transaction_id BIGINT,
    customer_id BIGINT,
    amount DECIMAL(10, 2),
    region_id INT
)
PARTITION BY RANGE(transaction_date) (
    PARTITION p2023 Q1 VALUES LESS THAN ('2023-04-01'),
    PARTITION p2023 Q2 VALUES LESS THAN ('2023-07-01'),
    ...
)
DISTRIBUTED BY HASH(region_id) BUCKETS 10;

在这个例子中：

分区是基于 transaction_date 进行的，以便利用时间范围进行分区裁剪。
分桶使用了映射后的 region_id 整数，确保了更好的哈希分布和高效的并行处理能力。