0
点赞
收藏
分享

微信扫一扫

什么情况下使用数据仓库


现状和需求

大量的企业经营性数据(订单、库存、原料、付款等)在企业的业务运营系统及及后台的(事务型)中产生的。

困难:对数据的归类分析往往涉及对多张数据表数据的同时访问,即需要同时锁住多张可能正在被不同事务更新的表单,这对业务繁忙的数据库系统来说可能是一件非常困难的事件。

一方面很难把多张表同时锁住、造成复杂查询的时延的增加。

另一方面如果锁住多张表,又会阻挡数据表单的更新的事务,造成业务的延时甚至中断。


数据仓库主要适用于企业数据的关联和聚合等分析场景, 并从中发掘出数据背后的商业情报供决策者参考。这里的数据发掘主要指涉及多张表的大范围的数据聚合和关联的复杂查询。


使用数据仓库,通过某个数据转换(ETL)的过程,业务运营数据库的数据可以被拷贝到数据仓库中供分析计算使用。同时支持把多个业务运营系统的数据汇集到一个数据仓库中。这样数据可以被更好地关联和分析,从而产生更大的价值。


数据仓库一般来说采用了一些和标准的面向事务的数据库(Oracle,MS SQL Server,MySQL等)不一样的设计,特别是针对数据的聚合性和关联性做了特别的优化,有些时候为了这些优化甚至可能会牺牲掉一些标准数据库的事务或者数据增删改的功能或者性能。因此,数据仓库和数据库的使用场景还是有所不同的。事务型数据库专注于事务处理(企业的业务运营),而数据仓库更擅长于复杂的数据分析。各司其职,互不干扰。简单一句话可以把它理解为,数据库主要负责数据更新,数据仓库主要负责数据分析。



数据仓库使用的场合:


商业智能系统,数据仪表盘,探索式和交互式数据分析,批量数据处理者是数据仓库的强项。




商业智能系统


商业智能系统也就是一般所指的BI系统。数据仓库最普遍的使用场景就是和商业智能系统配合使用。商业智能支持企业用户的商业决策,从日常运营到远期战略规划。一般通过处理大量的数据帮助企业用户识别新的经营机会,构建市场竞争力。企业用户通过商业智能系统收集整理商业数据,实现数据的分析,展示和传播,进而影响商业决策。商业智能系统可以提供历史的,当前的和预测的企业运营数据,通过包括报表展示,数据分析,数据发掘,预测分析,绩效指标,基线考核等核心技术和手段,通过挖掘数据的内在价值,帮助用户实现既定的商业目标。



数据仪表盘


数据仪表盘是一种用来显示企业的当前关键绩效指标(KPI)的数据可视化工具。仪表盘通常会把多个关键绩效指标和相关图表汇总到一块展示,是一种向经营决策者快速传递当前经营状况的有效手段。通常情况下,仪表盘上图表使用的数据都是从数据仓库当中通过查询实时提取出来的。很多商业智能系统都在一定程度上提供仪表盘的功能。




探索式和交互式数据分析



探索式数据分析是一种用来分析总结数据特征属性的方法,一般来说都是和数据可视化结合在一起发挥作用。数据探索人员可以预先假设一个数据模型,然后用统计的方法去验证或发现待探索的数据是否符合该模型或者假设。如果该假设成立,那么在此基础上再去检验新的数据集或者进一步提炼假设的模型,让其更接近最终的分析结果。探索式数据分析是一个对假设的结果进行验证和收敛的过程。探索式数据处理被广泛地应用在金融,保险,互联网,社科,医疗,制药等行业,是数据科学家和工程师的好帮手。





批量数据处理



批量数据处理是处理周期性产生的大规模数据的一种有效途径。在很多业务系统中,周期性的(小时,天,周)数据会被生产,搬迁,聚合,关联,通过多个步骤产生最终的数据结果集。批量数据处理一般需要动用多个数据处理脚本或任务协同工作,一般都具备容错和重启的功能。企业经营指标的日报表或月报表一般都是由批量数据处理系统产生的。批量数据处理系统一般对计算资源要求较多,对响应时延的要求较低,一般都选择在业务系统不那么繁忙的夜间运行。



在数据时代, 数据仓库的应用范围也更加的宽广。通过数据快速灵活地调整商业决策也越来越受到广大企业用户的认可,并把它应用到自己的生产服务过程当中。我们每天都在使用的手机应用,买车买房,贷款消费,以及交通路况,社保医疗,政府服务等方方面面,后台都可能有数据仓库的相关技术在做支撑。可以说,数据仓库技术正在静静地改变着我们的生产生活。





数据仓库是一种用来存储和分析结构化数据的特殊类型的数据库。数据仓库擅长对来自不同来源的数据进行聚合和关联,从而发掘出数据中隐藏的商业价值。在企业的经营决策,商业情报分析等领域都起着至关重要的作用。




随着数据库技术和分布式技术的长足发展,数据仓库也朝着分布式数据库的架构演进。目前比较流行的分布式数据仓库架构是MPP(Massive-ParallelProcessing)架构。MPP架构特性如下:



1. MPP架构的数据仓库一般由多个对等的数据计算节点构成。



2. MPP架构的数据仓库中的数据被按照某种规则近乎均匀地分配到每一个计算节点上。



3. 每个计算节点都独立拥有其计算资源(CPU/内存等)和被分配的数据。



4. 节点之间不存在任何共享的计算资源或数据,因此也被称为无共享(share-nothing)架构系统。



5. MPP数据仓库为客户的应用提供统一的计算入口,上层应用并不感知数据仓库内部的集群节点规模和数据分片情况,做到了数据分库分表的透明。



6. MPP架构最大的特点就是查询任务可以在所有的计算节点上被并行地执行,可以更加快速地返回计算的结果。每一个查询任务都会被平均地分配到所有的计算节点上并行地执行,这大大缩短了查询所需要的时间。



7. MPP架构可以通过简单地增加或减少计算节点数达到改变系统容量的目的,以应付更加灵活的现代企业计算的需要。




基于MPP架构的新一代数据仓库,普遍具有性能出众,兼容性好(针对底层的硬件和上层的应用),扩展性强,成本可控等显著特点,因而近年来越来越受到广大企业用户的青睐。







举报

相关推荐

0 条评论