课程介绍
本课程为大数据快速实战课,着重讲解企业中常用的大数据技术理论与实战,如Hadoop、Hive、HBase、Sqoop、Flume、Kafka、Spark Streaming、Spark SQL、Spark Structured Streaming、Kylin等。课程包含离线项目和实时项目,从项目业务需求、技术选型、架构设计、集群安装部署、集成开发以及项目可视化进行全方位实战讲解。
课程特色
1.一线技术大牛参与企业级项目实战讲解
2.大讲台全职老师全方位参与课程答疑服务
3.提供一线面试真题与答案
4.提供面试技巧讲解、简历修改、就业指导
课程涉及大数据技术
Zookeeper、HDFS、YARN、MapReduce、Hadoop(CDH5)、HBase、Hive、Sqoop、Flume1.7、Kafka1.x、Spark(2.3.0)、Spark Streaming、Spark SQL、Spark Structured Streaming、Kylin(2.3.2)等
适用人群
1.适合在校学生从事大数据
2.适合非开发人员转行大数据
3.适合在职开发人员大数据技能提升
4.适合大数据企业内训
讲师介绍
-
杨俊
大讲台大数据高级讲师 | 原某广电数据咨询公司大数据高级架构师
原某广电数据咨询公司大数据高级架构师 资深Java玩家,大数据技术狂热者。曾在北京某广电数据咨询公司担任大数据高级架构师,7年以上大数据实操经验, 经历过10个以上的重量级大数据项目。Hadoop源码级技术大咖,熟练使用Hadoop、Spark、Hive、HBase、Flume、Kafka等各大主流组件。谦虚亲和,崇尚实操至上的教学理念。受到学员一致好评。
-
杨哲
大讲台大数据特聘讲师
某大型手机厂商大数据小组Team Leader,对离线计算和实时计算都有丰富的经验。从业时间10年,曾在社交网络、移动广告、视频等行业研发大数据平台,擅长Hadoop、Flume、Kafka、Spark 、hbase大数据相关技术。在高可用高并发的业务系统的研发以及构架设计也有丰富的经验,热衷于将业务系统和大数据系统相结合的项目开发与设计。
免费视频这么多,为什么还要来大讲台?
智能化
学习任务智能推送
混合式
“图文+视频”混合式课件
答疑快
30分钟问答响应
实战多
3分理论7分实战
包学会
账号长期有效学会为止
课程大纲
大数据集群环境准备 |
1.虚拟机安装 2.虚拟机克隆 3.静态IP配置 4.X-shell工具使用 5.用户与用户组创建 6.主机名配置 7.防火墙配置 8.IP地址映射配置 9.SSH免密码登录 10.FileZilla工具使用 |
开发环境准备 |
1.JDK安装 2.Eclipse安装 3.Maven安装 4.Eclipse配置Maven 5.Eclipse构建Maven项目 |
Zookeeper理论基础 |
1.介绍 2.特点 3.基本架构 4.工作原理 5.读写流程 6.服务实现 |
实战:Zookeeper分布式集群安装部署 |
1.安装模式及不同厂商版本选择 2.集群规划 3.搭建时钟同步服务器 4.IP地址映射 5.防火墙配置 6.SSH免密码登录 7.集群脚本开发 8.JDK安装 9.Zookeeper集群配置与服务启动 |
Zookeeper实操 |
1.Zookeeper四字命令 2.Zookeeper shell操作 3.Zookeeper Java API操作 |
HDFS理论基础 |
1.HDFS介绍 2.HDFS特点 3.HDFS体系结构 4.HDFS读写流程 5.HDFS HA高可用原理 |
YARN理论基础 |
1.介绍 2.基本架构 3.MapReduce ON YARN工作原理 4.YARN HA高可用原理 |
实战:Hadoop分布式集群安装部署 |
1.HDFS分布式文件系统安装配置 2.HDFS服务启动与测试 3.HDFS文件系统测试运行 4.YARN集群安装配置 5.YARN服务启动与测试 6.YARN测试运行 7.HDFS HA和YARN HA 故障转移实战演示 |
MapReduce理论基础 |
1.MapReduce介绍 2.MapReduce基本设计思想 3.MapReduce编程模型 4.MapReduce案例分析 |
MapReduce实操 |
1.Eclipse与HDFS集成开发 2.Eclipse与MapReduce集成开发 |
项目实战 | MapReduce离线项目实战 |
HBase理论基础 |
1.HBase概述 2.HBase系统架构 3.HBase实际应用案例 |
实战:HBase分布式集群安装部署 |
1.HBase集群规划 2.HBase安装配置 3.HBase服务启动测试 |
HBase实操 |
1.HBase shell实操 2.HBase Java API实操 |
Hive理论基础 |
1.Hive概述 2.Hive体系结构 3.Hive工作原理 |
数据仓库理论基础 |
1.数据仓库设计原则 2.模型设计 |
Hive数仓实战 |
1.搭建大数据仓库 2.JDBC客户端操作 3.beeline客户端操作 4.Hive与HBase集成开发 |
Sqoop理论基础 |
1.Sqoop介绍 2.Sqoop基本架构 3.Sqoop数据导入导出原理 |
Sqoop实战 |
1.Sqoop环境安装 2.Sqoop将MySQL数据导入HDFS 3.Sqoop将MySQL数据导入Hive 4.Sqoop将MySQL数据导入HBase |
Flume理论基础 |
1.Flume概述 2.Flume系统架构 3.Flume工作原理 |
Flume实操 |
1.Flume最简安装 2.Flume集群构建 |
Kafka理论基础 |
1.Kafka概述 2.Kafka系统架构 3.Kafka拓扑结构 |
Kafka实战 |
1.Kafka集群安装部署 2.Flume与Kafka集成开发 |
Spark快速入门 |
1.Spark概述 2.Spark最简安装 3.Eclipse与Spark集成开发 |
Spark编程模型 |
1.RDD本质 2.RDD窄依赖与宽依赖 3.创建RDD 4.RDD转换操作与行动操作 5.PairRDD转换操作与行动操作 |
Spark实战 |
1.Spark Standalone集群搭建 2.Spark ON YARN集群搭建 3.TOPN实现 |
Spark Streaming理论基础 |
1.Spark Streaming概述 2.Spark Streaming运行原理 3.Spark Streaming编程套路 4.Spark Streaming窗口函数普通规约与增量规约 5.Spark Streaming DStream输出及持久化操作 |
Spark Streaming 实战 |
1.Spark Streaming与Kafka集成开发 2.Spark Streaming实时项目实战 |
Spark SQL理论基础与实操 |
1.Spark SQL架构原理 2.DataFrame、DataSet与RDD之间的区别与联系 3.RDD转DataFrame 4.RDD转DataSet 5.DataSet转DataFrame 6.DataSet转RDD 7.DataFrame转RDD |
Spark SQL实战 |
1.Spark SQL与Hive集成开发 2.Spark SQL与MySQL集成开发 3.Spark SQL与HBase集成开发 |
Spark Structured Streaming理论基础 |
1.Spark Structured Streaming概述 2.Spark Structured Streaming编程套路 3.Spark Structured Streaming编程模型 4.Spark Structured Streaming数据源 |
Spark Structured Streaming实战 |
1.Spark Structured Streaming与Kafka集成开发 2.Spark Structured Streaming实时项目实战 |
Kylin理论基础 |
1.数仓理论 2.OLAP与OLTP 3.维度和度量 4.Cube和Cuboid 5.事实表和维度表 6.星形模型与雪花模型 7.运行原理 8.技术架构 |
Kylin实战 |
1.Kylin大数据平台环境搭建 2.Kylin+Hive+HBase多维分析 |