为了分析海量数据,需要寻找一款分布式计算的开源项目,以前用的比较多的是hive,但是由于hive任务最终会被解析成MR任务,MR从硬盘读取数据并把中间结果写进硬盘,速度很慢,所以要寻找一款基于内存计算的开源项目,presto是Facebook开源的,基于内存的分布式计算框架。
Presto优点
1. 基于标准的ANSI SQL,有sql基础的都能快速使用
2. 安装部署简单
3. 基于内存计算,不要依赖MR,速度比hive快很多,。
[size=x-large][color=red]详细看原文[/color][/size]