尚硅谷大数据技术之Hive

描述

尚硅谷大数据技术之Hive文档,是尚硅谷大数据课程相关资料,文档对Hive的相关概念、安装配置及常见用法做了较为详细的介绍。

正文

1.1 什么是Hive
Hive:由Facebook 开源用于解决海量结构化日志的数据统计。
Hive 是基于Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并
提供类SQL 查询功能。
1)Hive 处理的数据存储在HDFS
2)Hive 分析数据底层的默认实现是MapReduce
3)执行程序运行在Yarn 上

1.2 Hive 的优缺点
1.2.1 优点
1) 操作接口采用类SQL 语法,提供快速开发的能力(简单、容易上手)。
2) 避免了去写MapReduce,减少开发人员的学习成本。
3) Hive 的执行延迟比较高,因此Hive 常用于数据分析,对实时性要求不高的场合。
4) Hive 优势在于处理大数据,对于处理小数据没有优势,因为Hive 的执行延迟比较
高。
5) Hive 支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。

1.2.2 缺点
1.Hive 的HQL 表达能力有限
(1)迭代式算法无法表达
(2)数据挖掘方面不擅长
2.Hive 的效率比较低
(1)Hive 自动生成的MapReduce 作业,通常情况下不够智能化
(2)Hive 调优比较困难,粒度较粗

第1页 共89页

第2页 共89页

第3页 共89页

第4页 共89页

第5页 共89页

第6页 共89页

第7页 共89页

第8页 共89页

第9页 共89页

第10页 共89页