基于Spark2.x新闻网大数据实时分析可视化系统

课程介绍

本项目基于某新闻网用户日志分析系统进行讲解，使用目前最新的Spark2.2版本，本项目通过超长的150课时逐步讲解，从项目的需求分析到基础环境搭建，然后到核心组件项目核心知识讲解，最后到项目业务实现、可视化以及项目的总结，整个过程无论是集群环境还是业务代码，都会带着大家一步一步操作，从而全方位的、完整的掌握Spark 新闻网大数据实时分析可视化系统。

本课程值得学习的四大理由：
1. 以新闻网大数据实时分析及可视化项目为主线，从零开始讲解项目需要的各方面知识，再到项目最终实现，非常详尽实用。
2. 采用最新的Spark2.2版本，网上此类项目属“罕见”。
3. 华为资深架构师讲授 & 答疑，除了项目本身，方案、思路、眼界、大数据认知等方面都能有所收获。
4. 超过150课时，课程内容进行了居多拓展，涉及大数据多方面的技能讲解，堪称迷你型的 spark 就业课程。

涉及技术

Hadoop2.x、Zookeeper、Flume、Hive、Hbase、Kafka、Spark2.2、SparkStreaming、SparkSQL、StructuredStreaming、MySQL、Hue、J2EE、websoket、Echarts

课程目标

学完本课程可胜任如下三个岗位：
1.Hadoop开发工程师
2.大数据架构师
3.Spark开发工程师

适用人群

1、大数据技术爱好者及从业人员。
2、有hadoop基础缺少项目经验的学员
3、有spark基础缺少项目经验的学员

服务

1、提供Spark项目交流群：413581066
2、提供Spark项目答疑服务
3、提供与Spark项目老师交流机会

讲师介绍

曹金博

大讲台大数据特聘讲师 | 华为大数据高级架构师

华为大数据架构师，曾主导过交通、电信、电商等多行业大数据项目，具有6年以上大数据项目的架构设计与研发。并且一直从事企业级大数据项目的架构设计、大数据技术研究和培训教育工作，具有丰富的大型项目实战经验以及教育培训经验。

免费视频这么多，为什么还要来大讲台？

智能化

学习任务智能推送

混合式

“图文+视频”混合式课件

答疑快

30分钟问答响应

实战多

3分理论7分实战

包学会

账号长期有效学会为止

课程大纲

第一章：案例需求分析与设计

1. 全套课程内容概述
2. 案例需求分析
3. 系统架构设计
4. 系统数据流程设计
5. 集群资源规划设计

第二章：linux环境准备与设置

1. Linux系统常规设置
2. 克隆虚拟机并进行相关的配置
3. 对集群中的机器进行基本配置

第三章：Hadoop2.X分布式集群部署

1. Hadoop2.X版本下载及安装
2. Hadoop2.X分布式集群配置
3. 分发到其他各个机器节点
4. HDFS启动集群运行测试
5. YARN集群运行MapReduce程序测试
6. 配置集群中主节点到各个机器的SSH无密钥登录

第四章：Zookeeper分布式集群部署

1. Zookeeper版本下载及安装
2. 分布式集群配置及参数介绍
3. Zookeeper服务启动及测试

第五章：Hadoop2.X HA架构与部署

1. HDFS-HA架构原理介绍
2. HDFS-HA 详细配置
3. HDFS-HA 服务启动及自动故障转移测试
4. YARN-HA架构原理介绍
5. YARN-HA 详细配置
6. YARN-HA 服务启动及自动故障转移测试

第六章：HBase分布式集群部署与设计

1. 下载HBase版本并安装
2. 分布式集群的相关配置
3. 启动依赖于Zookeeper和HDFS的两个服务
4. 通过shell测试数据库
5. 日志信息存储需求分析及表的创建

第七章：Kafka分布式集群部署

1. 下载Kafka版本并安装
2. Kafka集群配置
3. 启动Kafka依赖于Zookeeper的服务并进行测试

第八章：Flume数据采集准备

1. Flume节点服务设计
2. Flume版本下载安装
3. Flume agent-1采集节点服务配置
4. Flume agent-2采集节点服务配置

第九章：Flume+HBase+Kafka集成与开发

1. 下载Flume源码并导入Idea开发工具
2. 根据业务需求做采集入库的程序设计
3. 自定义SinkHBase程序开发
4. idea程序打包并部署
5. 官方Flume与HBase集成的参数介绍
6. Flume agent-3聚合节点与HBase集成的配置
7. 官方Flume与Kafka集成的参数介绍
8. Flume agent-3聚合节点与Kafka集成的配置

第十章：数据采集/存储/分发完整流程测试

1. idea工具开发数据生成模拟程序
2. 编写启动Flume服务程序的shell脚本
3. 启动Flume采集相关的所有服务
4. 编写脚本并启动Flume agent三台采集节点服务
5. 编写Kafka consumer执行脚本并运行
6. java开发业务数据生成模拟器
7. 运行模拟程序并通过HBase shell检查数据

第十一章：MySQL安装

1. 配置linux本地镜像源
2. linux联网安装mysql数据库
3. myql设置用户连接权限
4. 分析业务需求并设计表结构
5. 创建数据库和与业务相关的表

第十二章：Hive与HBase集成进行数据分析

1.Hive 概述
2.Hive 架构设计
3.Hive 应用场景
4.Hive 安装部署
5.Hive与MySQL集成
6.Hive 服务启动与测试
7.根据业务创建表结构
8.Hive与HBase集成进行数据离线分析

第十三章：Cloudera HUE大数据可视化分析

1.Hue概述
2.Hue安装部署
3.Hue基本配置与服务启动
4.Hue与HDFS集成
5.Hue与YARN集成
6.Hue与Hive集成
7.Hue与MySQL集成
8.Hue与HBase整合
9.对采集的数据进行可视化分析
10.Hue使用的经验总结

第十四章：Spark2.X环境准备、编译部署及运行

1.Spark 概述
2.Spark 生态系统介绍
3.Spark2.X学习注意事项
4.Spark2.2源码下载及编译
5.Scala安装及环境变量设置
6.Spark2.2本地模式运行测试
7.Spark服务WEB监控页面

第十五章：基于IDEA环境下的Spark2.X程序开发

1.Windows开发环境配置与安装
2.IDEA Maven工程创建与配置
3.开发Spark Application程序并进行本地测试
4.打Jar包并提交spark-submit运行

第十六章：Spark2.X集群运行模式

1.Spark几种运行模式介绍
2.Spark Standalone集群模式配置与运行
3.Spark on YARN集群模式配置与运行

第十七章：Spark2.X分布式弹性数据集

1.三大弹性分布式数据集介绍
2.Spark RDD概述与创建方式
3.Spark RDD五大特性
4.Spark RDD操作方式及使用
5.DataFrame创建方式及功能使用
6.DataSet创建方式及功能
7.数据集之前的对比与转换

第十八章：Spark SQL快速离线数据分析

1.Spark SQL概述及特点
2.Spark SQL服务架构
3.Spark SQL与Hive集成（spark-shell）
4.Spark SQL与Hive集成（spark-sql）
5.Spark SQL之ThirftServer和beeline使用
6.Spark SQL与MySQL集成
7.Spark SQL与HBase集成

第十九章：Spark Streaming实时数据分析

1.Spark Streaming功能介绍
2.NC服务安装并运行SparkStreaming
3.Spark Streaming服务架构及工作原理
4.Spark Streaming编程模型
5.Spark Streaming读取Socket流数据
6.Spark Streaming结果数据保存到外部数据库
7.SparkStreaming与Kafka集成进行数据处理

第二十章：Structrued Streaming业务数据实时分析

1.Structured Streaming 概述及架构
2.Structured Streaming 编程模型
3.实时数据处理业务分析
4.Stuctured Streaming 与Kafka集成（一）
5.Stuctured Streaming 与Kafka集成（二）
6.Stuctured Streaming 与MySQL集成
7.基于结构化流完成业务数据实时分析（一）
8.基于结构化流完成业务数据实时分析（二）
9.基于结构化流完成业务数据实时分析（三）

第二十一章：大数据Web可视化分析系统开发

1.基于业务需求的WEB系统设计
2.下载Tomcat并创建Web工程
3.Web系统数据处理服务层开发
4.基于WebSocket协议的数据推送服务开发
5.基于Echart框架的页面展示层开发（一）
6.基于Echart框架的页面展示层开发（二）
7.工程编译并打包发布
8.启动各个服务并展示最终项目运行效果

你可能还喜欢的课程

【千元钜惠】资深大数据架构大佬全程直播，传授硬核技能：①OLAP/HTAP/湖仓一体等多种架构；②借FlinkCDC/Kylin/Hudi/Doris等打造数仓；③湖仓一体化项目落地实践；④基于Flink和StreamX打造低代码大数据中台

查看详情 QQ咨询

大数据实战精英+架构师班

查看详情 4个月
【千元钜惠】手握6000+节点的大数据运维大咖全程直播，4个月带你熟悉大数据集群规划、部署、监控、排错、容器化等技能，并完成3个商业项目。

查看详情 QQ咨询

大数据运维尖刀班

查看详情 4个月
【3重优惠】技术大牛组团授课，专讲大数据核心知识和大型项目实战，多台物理服务器数十个节点现场直播演示！企业级实战项目让你四个月掌握2年的项目经验！

查看详情 QQ咨询

大数据开发工程师特训营

查看详情 16周
【优惠活动】新东方、搜狗、腾讯等名企一线实战讲师授课，技“高”一筹！重在培养数据分析方法及思路，而不仅仅是学习技术及工具。带教多个互联网及金融领域企业真实项目，而不仅仅是讲理论和小案例。

查看详情 QQ咨询

数据分析特训营

查看详情 16周
本课程为大数据金融信贷项目实战课，着重讲解企业中常用的大数据技术理论与实战，如Hadoop、Hive、HBase、Sqoop、Flume、Kafka、Spark Streaming、Spark SQL、Spark Structured Streaming等。课程包含离线项目和实时项目，从项目业务需求、技术选型、架构设计、集群安装部署、集成开发以及项目可视化进行多方位实战讲解。

查看详情 QQ咨询

互联网金融信贷项目实战（Hadoop&Spark）

查看详情 38小时44分钟
干货多：15案例 + 3实战 + 2项目；
提升快：滴滴出行一线架构师传授实战经验，30小时多方位讲解数据仓库构建相关理论及实战内容
技术全：综合运用Hive/Flume/Kafka/Azkaban/Oozie/SparkSQL等技术；

查看详情 QQ咨询

基于大数据体系构建数据仓库

查看详情 32小时52分钟
本课程基于某电商公司运营实时分析系统（2B），对Flink进行系统讲解。通过本课程的学习，既能获得Flink企业级真实项目经验，也能深入掌握Flink的核心理论知识，还能获得Flink在生产环境中安装、部署、监控的宝贵经验，从而深入掌握Flink技术。

查看详情 QQ咨询

Flink电商运营项目实战

查看详情 50小时6分钟

他们在学

150****9809
137****0960
小强
雷老师
180****3056
133****3361
nxhyzwx
moshimowang326
189****8070
秋日狐尚
180****8403
177****5542
1806559096
171****6752
135****6079
150****1913