1、项目背景
为了满足各种业务需求,大部分数据中心所使用的硬件和软件随着时间的推移都已变得杂乱无章。该客户数据中心由不同的服务器和存储孤岛组成,还包括将所有内容集成在一起的复杂软件组合。
2、关注问题
维护混合数据中心环境的代价非常高昂,IT预算的很大一部分(估计高达30%)用于确保所有这些不同组件之间良好协作,更重要的是要确保每个组件在其生命周期内都能正常工作。维护不同的服务器和存储孤岛还会导致效率显著降低。通常会为每个系统过量供应一些多余的处理和存储容量,这会导致整个数据中心存在大量未能充分利用的资源。为提供期望的性能、可用性和安全性而对每个系统进行单独管理,不但效率低下,而且成本高昂。
3、建设要求
为了解决问题,资金清算中心采购新数据库产品需要满足以下要求:
l 能够处理多种数据并与各类上层应用整合
l 能够进行多维数据处理,支持常用的星型、雪花型模型
l 支持标准化查询接口
l 具有一定的扩展能力和潜力
l 技术符合目前数仓大数据发展需要,具有一定先进性
数据仓库技术指标要求如下:
l 数据容量:支持海量数据;
l 扩展能力:支持在线的横向扩展、支持超大规模的集群
l 处理能力:每天3小时内完成复杂作业处理;
l IO能力: 具备高数据压缩、并行加载等特性;
l 高可用: 7×24小时不间断服务,具备备份和容灾能力,无故障数据丢失;
l 硬件环境: 支持x86、Linux;
l SQL支持: 标准统一,满足SQL92及JDBC、ODBC接口;
解决方案
在北京市基于天津南大通用数据技术股份公司的GBase 8a MPP Cluster数据库软件搭建了数据仓库系统,其上运行了数据统计和风控等数据类应用,该项目共搭建了8节点集群。
数据挖掘集市:
数据挖掘集市包含总计8个节点的集群,包括对贴源层资金、交易、台账等各个系统的数据挖掘、查询、分析,源系统通过ETL将数据汇集至挖掘集市进行分析挖掘,提取重点信息内容。
共性加工层:
针对集市共性指标维度等进行整理和整合,对数据进行标准化处理,统一口径、统一维度、统一指标,为后续数据整合提供标准基础。
基础整合层:
对所有分析类指标维度进行基础整合,对目标结果进行计算与整合,完成复杂计算,对结果数据进行存储,完成星型模型的构建和处理。
数据查询支持:
以大规模并行查询和列存储的优势对数据进行展示,负责复杂关联查询、统计类查询需求,保证系统查询响应时间和结果正确性。
应用效果
1、实施情况
共完成了8个节点的集群安装部署,总数据量超过50TB
支持清算中心审计、风控、数据统计等各类业务的数据支持和分析查询支持
2、效果及价值
完成了清算中心审计、统计、风控等业务的查询需求,达到复杂查询秒级响应。
每天批处理时间不超过三小时。