Hive 教程

Hive教程

Hive 是基于 Hadoop 的一个数据仓库工具,用来对数据进行提取、转化和加载,它是一种可以存储、查询和分析保存在 Hadoop 中的大规模数据的机制。

 


1. Hive 使用方式

Hive 数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供 SQL 查询功能,能将 SQL 语句转变成 MapReduce 任务来执行。

2. Hive 用途

Hive 的优点是学习成本低,可以通过类似 SQL 语句实现快速 MapReduce 统计,使 MapReduce 变得更加简单,而不必开发专门的 MapReduce 应用程序。

Hive 适合对数据仓库进行统计分析。

3. 适合人群

本教程为有志于使用Hadoop框架从事大数据分析工作的专业人士准备。一般情况下进入分析的ETL开发人员和专业人员也可以使用本教程来取得良好效果。

4. 预备知识

在继续本教程之前,您需要掌握核心 JavaSQL 的数据库概念,Hadoop 文件系统以及任何 Linux操作系统 风格的基本知识。

5. Hive教程内容导航

Hive - 教程 Hive - 介绍 Hive - 安装 Hive - 数据类型 Hive - 创建数据库
Hive - 删除数据库 Hive - 创建表 Hive - 修改表 Hive - 删除表 Hive - 分区
Hive - 内置运算符 Hive - 内置函数 Hive - 视图和索引 HiveQL Select Where HiveQL Select Order By
HiveQL Select-Group By HiveQL Select Joins      

大数据是指包含巨大数据量、高速增长的各种数据的大型数据集。使用传统的数据管理系统,处理大数据很困难。因此,Apache Software Foundation 引入了一个名为 Hadoop 的框架来解决大数据管理和处理难题。 ...