Hive 简介

Hive是一个基于Hadoop的数据仓库工具，可以将结构化数据映射到Hadoop HDFS上，并提供SQL查询功能。Hive的设计目标是让那些熟悉SQL语言的用户能够在Hadoop上轻松执行数据查询和分析任务，无需编写MapReduce程序。

Hive使用HiveQL（类似于SQL）作为查询语言，支持各种数据源，如Hadoop HDFS、HBase、MySQL等，同时也支持多种格式的数据，如文本、序列化、ORC等。

安装

在使用Hive之前，需要将其安装在本地计算机上。Hive与Hadoop密切相关，因此需要先安装Hadoop。Hive通常作为Hadoop的一部分提供，因此可以通过Hadoop分发中的bin目录访问Hive二进制文件。或者，您也可以从Hive官方网站下载压缩包并手动安装。

连接到Hive

Hive提供了不同的方式来连接到Hive，包括使用命令行界面、JDBC、ODBC等。以下是一个使用命令行界面连接到Hive的示例：

hive

这个命令将启动Hive命令行界面，并连接到默认的Hive数据库。

创建数据库

以下是一个使用Hive创建数据库的示例：

CREATE DATABASE mydatabase;

这个命令将创建名为“mydatabase”的数据库。

创建表

以下是一个使用Hive创建表的示例：

CREATE TABLE mytable (
  id INT,
  name STRING,
  age INT
);

这个命令将创建名为“mytable”的表，并定义了三个列：id、name和age。

加载数据

以下是一个使用Hive加载数据到表中的示例：

LOAD DATA LOCAL INPATH '/path/to/data' INTO TABLE mytable;

这个命令将从本地文件系统中的“/path/to/data”目录中加载数据，并将数据插入到“mytable”表中。

查询数据

以下是一个使用Hive查询数据的示例：

SELECT * FROM mytable WHERE age > 18;

这个命令将从“mytable”表中选择所有列，并仅返回age列大于18的行。

修改表

以下是一些使用Hive修改表的示例：

添加列：ALTER TABLE mytable ADD COLUMN email STRING;
更改列名：ALTER TABLE mytable CHANGE COLUMN name first_name STRING;
更改列类型：ALTER TABLE mytable CHANGE COLUMN age age STRING;

删除表

以下是一个使用Hive删除表的示例：

DROP TABLE mytable;

这个命令将删除名为“mytable”的表。

使用案例

以下是一个使用Hive的示例案例，展示如何从Hadoop HDFS中的文本文件中查询数据。

假设我们有一个存储在Hadoop HDFS中的文本文件，其中包含有关人员的信息，每行一个记录，每行包含id、名称、年龄和电子邮件地址。我们可以使用Hive查询这个文件中的数据。

首先，我们需要在Hive中创建一个表，用于存储这些数据：

CREATE EXTERNAL TABLE people (
  id INT,
  name STRING,
  age INT,
  email STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
LOCATION '/path/to/people';

这个命令将创建一个名为“people”的表，该表包含id、name、age和email列，并且数据存储在Hadoop HDFS的“/path/to/people”位置。我们使用ROW FORMAT DELIMITED和FIELDS TERMINATED BY '\t’来指定数据的格式。

接下来，我们可以使用SELECT语句来查询这个表中的数据：

SELECT name, age FROM people WHERE age > 18;

这个命令将从“people”表中选择name和age列，并仅返回age列大于18的行。我们可以使用其他SQL函数和操作符来进一步处理和分析数据。

结论

Hive是一个非常有用的工具，它可以将结构化数据映射到Hadoop HDFS上，并提供SQL查询功能。本文提供了Hive的详细使用文档和使用案例，希望能够帮助您更好地使用Hive。请注意，本文只提供了Hive的部分功能和用法，更多详细信息请参考Hive官方文档。

工作一年，天天 CRUD，怎么破？

目录