课程介绍
本课程基于最新的Spark 2讲解,使用目前最流行的Python语言进行开发,内容涵盖了企业中大数据处理的四大场景:离线批处理、流式计算、SQL处理、机器学习。
课程特色
本课程以案例驱动详细介绍Spark的四种主要应用场景,包括Spark Core、Spark SQL(包括 SQL和DataFrame)、Spark Streaming、Spark ML,并精选实际工程中典型案例代码,课程中会将理论和实践相结合,如果你有大数据基础但项目经验不足,那么这个课程一定能帮到你。
课程目标
1、掌握spark core 架构,掌握典型transformation的运行逻辑和DAG,能独立完成pagerank算法并应用到业务场景;
2、掌握Spark SQL和主流大数据库Hive、MySQL的集成方案,以及数据互通;
3、掌握Spark DataFrame的优势常用算子的使用,能完成ETL中典型清洗任务;
4、掌握Spark DataFrame如何处理复杂结构的IOT数据格式;
5、掌握Kafka的体系架构、生产者、消费者、分区的设计和使用,以及和Spark Streaming的互通;
6、熟悉掌握spark-streaming流式计算编程,熟悉各种算子的计算逻辑;
7、掌握spark-streaming中开窗、检查点、高可用等技术,能够打造高可靠的流应用;
6、掌握两种典型的机器学习算法(逻辑回归、推荐系统)的使用;
适用人群
1、对大数据有简单了解的学员;
2、有Python编程基础想进阶提升的学员;
3、想转行或者从事海量数据实时计算的学员;
4、想提升大数据相关技能和积累项目经验的学员;
讲师介绍
-
张晓明
大讲台合作讲师 | 国内知名金融公司资深数据挖掘
阿里系大数据工程师出身,专业数据挖掘10余年,曾服务于电商、广告、电信、金融等行业大数据平台,全套spark、Hadoop、Flume、Kafka、Spark 、HBase大数据经验。 精通数据挖掘、机器学习、深度学习全栈数据变现技术。
免费视频这么多,为什么还要来大讲台?
智能化
学习任务智能推送
混合式
“图文+视频”混合式课件
答疑快
30分钟问答响应
实战多
3分理论7分实战
包学会
账号长期有效学会为止
课程大纲
1.整个课程介绍 2.Python 大数据开发优势 3.MapReduce框架的局限性 4.Hadoop 生态圈 5.Spark 优势 6.Spark 特点 7.Spark2 新特性 8.Spark 开发环境搭建 |
1.RDD 是什么 2.RDD 特性 3.RDD 核心属性 4.RDD 创建方式 5.RDD Transfamation与Action 6.RDD 核心算子 7.RDD 典型算子执行过程 |
1.Spark DataFrame-定义 2.Spark DataFrame-DataFrame1vsDataFrame2 3.Spark DataFrame-创建方式 4.Spark DataFrame API-直接创建 5.Spark DataFrame API-读取CSV 6.Spark DataFrame API-增加列 7.Spark DataFrame API-删除列 8.Spark DataFrame API-统计信息 9.Spark DataFrame API-指定提取列 10.Spark DataFrame API-filter过滤 11.Spark DataFrame API-统计:去重、分组、自定义 12.Spark DataFrame API-数据集拆分 13.Spark DataFrame API-采样数据 14.Spark DataFrame API-交叉表 15.Spark DataFrame API-sql功能 16.Spark DataFrame API-综合案例 |
1.JSON数据源 2.从JSON到DataFrame 3.加载JSON数据 4.嵌套结构的JSON 5.Spark SQL DataFrame实战-物联网项目 |
1.Spark SQL DataFrame数据清洗-删除重复数据 2.Spark SQL DataFrame数据清洗-处理缺失值 3.Spark SQL DataFrame数据清洗-异常值处理 4.Spark SQL DataFrame数据清洗-建立数据的印象 |
1.Spark Streaming 架构原理 2.Spark Streaming-Streaming Context 3.Spark Streaming-DStream 4.Spark Streaming-Receiver接收器 5.Spark Streaming-数据源 6.Spark Streaming-可靠性 7.Spark Streaming-DStream的操作 8.Spark Streaming-缓存 9.Spark Streaming-Checkpoint检查点 |
1.Kafka架构原理详解 2.安装配置Zookeeper 3.安装配置Kafka 4.创建Kafka Topic 5.配置Spark Streaming Kafka开发环境 6.Spark Streaming整合Kafka-代码开发 7.Spark Streaming整合Kafka-优化 |