课程介绍
本课程为大数据实时数仓项目实战课程,以大数据实时数仓项目为主线,理论和实战相结合,全方位、全流程、无死角讲解数仓项目的数仓基础、项目规划、需求分析、架构设计与技术选型、大数据平台构建、项目业务介绍、数据采集、数仓建模理论、数仓设计规范、数仓搭建、实时分析以及数据大屏制作。学完本课程,零基础的学员能入行大数据仓库工程师,有开发基础的学员也能快速积累项目实战经验。
课程特色
1.课程以实时数仓项目为主线,理论与项目实战交替讲解,层层递进。
2.课程从数仓基础、项目规划、需求分析、架构设计与技术选型、大数据平台构建、项目业务介绍、数据采集、数仓建模理论、数仓设计规范、数仓搭建、实时分析以及大屏制作等项目完整流程讲解,不会跳讲和断讲。
3.课程中无论案例代码开发还是项目业务代码开发,每一行代码都会边实现讲解。
4.课程中目前使用Flink1.14.3最新稳定版本。
项目架构图
数据流程图
项目效果图
讲师介绍
-
杨俊
大讲台大数据高级讲师 | 原某广电数据咨询公司大数据高级架构师
原某广电数据咨询公司大数据高级架构师 ,资深Java玩家,大数据技术狂热者,《实战大数据(Hadoop+Spark+Flink)》作者。曾在北京某广电数据咨询公司担任大数据高级架构师,8年以上大数据实操经验, 经历过10个以上的重量级大数据项目。Hadoop源码级技术大咖,熟练使用Hadoop、Spark、Flink、Hive、HBase、Flume、Kafka、ElasticSearch等各大主流组件。谦虚亲和,崇尚实操至上的教学理念。受到学员一致好评。
免费视频这么多,为什么还要来大讲台?
智能化
学习任务智能推送
混合式
“图文+视频”混合式课件
答疑快
30分钟问答响应
实战多
3分理论7分实战
包学会
账号长期有效学会为止
课程大纲
实时数仓技术选型 |
22.日志文件采集-技术选型 23.数据库采集-技术选型 24.维度表存储-技术选型 25.事实表存储-技术选型 26.多维聚合分析-技术选型 27.实时数仓-技术架构 |
搭建Hadoop大数据平台 |
28.搭建Hadoop大数据平台 29.搭建IDEA开发环境 30.VMware WorkStations安装 31.Linux系统介绍 32.创建新的虚拟机 33.安装Centos7操作系统 34.Linux静态IP配置 35.Linux系统配置 36.JDK安装与配置 37.3节点集群环境准备 38.配置集群hosts文件 39.配置集群时钟服务器 40.配置集群ssh免密登录 41.集群脚本开发 42.搭建zookeeper分布式集群 43.Hadoop集群规划 44.HDFS集群配置 45.启动HDFS集群服务 46.HDFS集群测试运行 47.YARN集群配置 48.启动YARN集群服务 49.YARN集群测试运行 50.Hadoop集群故障转移测试 51.安装MySQL元数据库 52.Hive客户端安装部署 |
搭建数据采集与存储平台 |
57.搭建FlinkOnYARN集群环境(1) 58.搭建FlinkOnYARN集群环境(2) 59.搭建FlinkCDC数据采集平台(1) 60.搭建FlinkCDC数据采集平台(2) 61.搭建Kafka分布式集群环境 |
数仓建模理论 |
62.数仓建模理论模块整体介绍 63.数仓建模目标 64.关系范式模式介绍 65.数据库范式优缺点 66.第一范式(1NF) 67.第二范式(2NF) 68.第三范式(3NF) 69.ER实体模型 70.维度建模-事实表 71.维度建模-维度表 72.星型模型与雪花模型介绍 73.雪花模型与星型模型对比 74.维度建模模型如何选择 75.DataVault模型与Anchor模型 76.主流建模方法对比 77.数仓架构为什么分层? 78.数据源与ETL 79.ODS原始数据层 80.DWD明细数据层 81.维度建模过程 82.DWS服务数据层 83.DM与ADS的区别与联系 84.数据集市与数据仓库的区别与联系 |
搭建实时数仓ODS层 |
92.实时数仓ODS核心概念介绍 93.启动实时数仓相关集群服务 94.FlinkCDC实时采集cars表至DIM层 95.FlinkCDC实时采集community表至DIM层 96.FlinkCDC实时采集date表至DIM层 97.FlinkCDC实时采集district表至DIM层 98.FlinkCDC实时采集house表至DIM层 99.FlinkCDC实时采集owner表至DIM层 100.FlinkCDC实时采集room表至DIM层 101.FlinkSQL与Kafka集成环境准备 102.FlinkCDC实时采集cars_log表至ODS层 103.FlinkCDC实时采集entrance_guard_log表至ODS层 |
搭建实时数仓DWD层 |
104.实时数仓DWD层维表关联实现方式 105.搭建实时数仓DWD层-车辆进出事实表(1) 106.搭建实时数仓DWD层-车辆进出事实表(2) 107.搭建实时数仓DWD层-车辆进出事实表(3) 108.搭建实时数仓DWD层-门禁事实表(1) 109.搭建实时数仓DWD层-门禁事实表(2) 110.搭建实时数仓DWD层-门禁事实表(3) |
搭建实时数仓DWS层 |
113.Java客户端远程连接Clickhouse 114.搭建实时数仓DWS层-每日车辆出行行为(1) 115.搭建实时数仓DWS层-每日车辆出行行为(2) 116.搭建实时数仓DWS层-每日车辆出行行为(3) 117.搭建实时数仓DWS层-每日车辆出行行为(4) 118.搭建实时数仓DWS层-每日车辆出行行为(5) 119.搭建实时数仓DWS层-每日车辆出行行为(6) 120.搭建实时数仓DWS层-每日用户进程行为(1) 121.搭建实时数仓DWS层-每日用户进程行为(2) 122.搭建实时数仓DWS层-每日用户进程行为(3) 123.搭建实时数仓DWS层-每日用户进程行为(4) 124.搭建实时数仓DWS层-每日用户进程行为(5) 125.FlinkSQL流表与维表关联产生的问题 126.FlinkWindowJoin双流Join及应用场景 127.FlinkIntervalJoin双流Join及应用场景 128.FlinkRegularJoin双流Join及应用场景 |