高端IT人才在线实训平台

Hadoop大数据技术是进大公司的捷径

8年前错过Android,5年前错过iOS,3年前错过web前端,如今,你想再错过大数据?
他们都在招聘Hadoop大数据人才,你还在犹豫吗? >>咨询下我能学吗?

点击 》Hadoop就业情况怎么样?   点击 》学完薪资能涨多少?   点击 》没有基础可以学习吗?

Java工程师转型Hadoop为什么要参加特训营?

Hadoop炙手可热,但若只读过几本书、看过一些视频,没有项目经验就只能是眼馋的看客,若只是用小项目练过手而没操作过真正的“大数据”

就只能是憋屈打杂,与高薪、名企无缘!

参加在线直播课程 比单纯的看书、看视频自学,更容易坚持下去,效率更高、周期更短,也能更快的帮助你完成职业转换

自己看书、学习免费视频很难获得TB级的有效数据,没有有效的数据包,你做的Hadoop项目也就称不上是大数据项目!

企业招聘Hadoop大数据工程师,最看重项目经验,因为对企业来说数据是最重要的资产,不可能拿它冒险,让毫无项目经验的新人去试错历练!

点击》Java为什么转型做Hadoop?   点击》Android转做Hadoop容易吗?   点击》运维人员能转大数据吗?

独特的混合式特训模式,快速提升你的实战能力

由积累了近二十个TB/PB级大数据项目经验的一线大神无保留亲授,多台高性能物理服务器数十个节点直播演示,

只讲Hadoop、Storm核心知识和5个高含金量大型商业项目!

循序渐进 任务过关模式

混合式自适应 学习系统

一线工程师 1对1答疑

DTS在线实训 教练系统

一线大神 在线直播

9元试学7天 | 点击申请试学优惠码 >   咨询 | 整个课程学习周期多长??   咨询 | 往期学员就业情况如何?

特训营瞄准大型互联网公司招聘需求

手把手教你搞定“广电收视率分析系统”、“TB级电商网站日志分析系统”、“视频网站爬虫系统”、“OpenTSDB时间序列分析系统”和

“婚恋网站后台日志实时分析系统(Storm)”,4个月,积累5个大型项目实战经验!

  • 一、Linux基础课程
  • 二、Java 基础课程
  • 三、Hadoop集群及开发环境搭建
  • 四、HDFS分布式文件系统
  • 五、MapReduce分布式计算框架
  • 六、YARN 资源管理器
  • 七、Zookeeper 分布式协调服务
  • 八、Flume 日志收集系统
  • 九、Hive 数据仓库
  • 十、Sqoop 数据导入导出工具
  • 十一、HBase 分布式数据库
  • 十二、Azkaban Hadoop工作流引擎
  • 十三、Redis 基于内存的键值数据库
  • 十四、 Solr 搜索引擎
  • 十五、ElasticSearch 搜索引擎
  • 十六、Kafka 分布式消息系统
  • 十七、Storm 分布式流式计算框架
  • 十八、大数据项目实战

一、Linux基础课程

  • 1.Vmware虚拟机的介绍
  • 2.Vmware虚拟机的安装
  • 3.Vmware虚拟机的配置
  • 4.CentOS6.5版本下载
  • 5.CentOS6.5系统安装
  • 6.虚拟机通信配置
  • 7.Linux连接工具-Xshell简介
  • 8.系统常用配置讲解
  • 9.Linux系统简介
  • 10.目录简介
  • 11.帮助文档操作
  • 12.文件目录操作
  • 13.用户和组管理
  • 14.文件权限管理
  • 15.软件包管理
  • 16.系统命令管理
  • 17.VI-VIM编辑
  • 18.备份压缩
  • 19.SSH详解
  • 20.如何复制我的操作系统
  • 21.Mac地址冲突怎么解决
  • 22.软件包哪里下载
  • 23.如何有效的制作快照及恢复
  • 24.Linux密码忘记如何处理
  • 25.如何打开及关闭图形界面

二、Java 基础课程

  • 1.Java 变量 & 运算
  • 2.Java 控制语句
  • 3.Java 数组及字符操作
  • 4.Java 面向对象程序设计
  • 5.Java 异常处理
  • 6.Java IO
  • 7.Java常用工具类
  • 8.Java多线程

三、Hadoop集群及开发环境搭建

  • 1.Linux虚拟机安装配置
  • 2.Linux网络配置和系统配置
  • 3.搭建Hadoop 伪分布实验环境
  • 4.搭建Hadoop(Apache 版本) 分布式生产环境
  • 5.搭建Hadoop(CHD 版本) 分布式生产环境
  • 6.搭建Eclipse开发环境,构建企业级MapReduce项目(Maven)
  • 7.MapReduce单元测试及DeBug调试

四、HDFS分布式文件系统

  • 1.HDFS 体系结构详解
  • 2.HDFS 运行原理详解
  • 3.HDFS 读数据流程
  • 4.HDFS 写数据流程
  • 5.HDFS 副本策略
  • 6.HDFS2.0 的HA机制(高可用)
  • 7.HDFS2.0 的Federation机制
  • 8.Shell 命令操作HDFS
  • 9.Java API操作HDFS

五、MapReduce分布式计算框架

  • 1.MapReduce 架构原理详解
  • 2.MapReduce数据本地性
  • 3.MapReduce的运行机制
  • 4.Hadoop文件的序列化
  • 5.MapReduce输入格式
  • 6.MapReduce输出格式
  • 7.MapReduce内置的Combiner与Partitioner
  • 8.MapReduce 数据倾斜与优化
  • 9.MapReduce 编程之Join算法
  • 10.MapReduce 二次排序
  • 11.MapReduce 读写数据库
  • 12.Hadoop 各种压缩及企业应用
  • 13.Hadoop源码编译及Snappy压缩
  • 14.Hadoop 计数器
  • 15.Hadoop Streaming 实现多语言编程

六、YARN 资源管理器

  • 1.YARN 产生背景
  • 2.YARN 基本概念
  • 3.YARN 基本架构
  • 4.YARN 的工作原理
  • 5.MapReduce ON YARN
  • 6.YARN HA 高可用

七、Zookeeper 分布式协调服务

  • 1.ZooKeeper 产生背景
  • 2.ZooKeeper 基本原理
  • 3.ZooKeeper 应用场景
  • 4.Zookeeper 分布式集群的安装部署
  • 5.Zookeeper API 操作实践
  • 6.Zookeeper 配置管理Hadoop集群

八、Flume 日志收集系统

  • 1.Flume应用场景
  • 2.Flume基本原理
  • 3.Flume基本架构
  • 4.Flume 环境安装部署
  • 5.Flume 的Agent配置信息详解
  • 6.Flume 动态监控日志目录
  • 7.Flume 采用日志文件
  • 8.Flume 将采集数据导入HDFS

九、Hive 数据仓库

  • 1.Hive 基本概念
  • 2.Hive 架构原理详解
  • 3.Hive 支持的数据类型
  • 4.Hive SQL基本操作详解
  • 5.Hive 数据查询
  • 6.Hive 内置函数与自定义函数
  • 7.Hive 文件格式
  • 8.Hive 性能调优
  • 9.项目实战:从金融历史数据中分析提取逆回购信息

十、Sqoop 数据导入导出工具

  • 1.Sqoop 基本架构
  • 2.Sqoop 架构原理
  • 3.Sqoop 环境安装部署
  • 4.Sqoop与HDFS结合导入导出数据
  • 5.Sqoop与Hive结合导入导出数据
  • 6.Sqoop与HBase结合导入导出数据

十一、HBase 分布式数据库

  • 1.HBase 基本架构与运行原理
  • 2.HBase 数据读写流程
  • 3.HBase 数据模型
  • 4.HBase 负载均衡
  • 5.HBase 伪分布实验环境
  • 6.HBase 分布式生产环境
  • 7.HBase 集群管理与维护
  • 8.HBase 的Shell操作
  • 9.HBase 的Java API操作
  • 10.MapReduce 读写HBase数据库
  • 11.HBase 性能调优一:RowKey 设计技巧(解决热点问题)
  • 12.HBase 性能调优二:预分区(解决热点问题)
  • 13.HBase 性能调优三:宽表和高表设计技巧

十二、Azkaban Hadoop工作流引擎

工作流概述 1.1.工作流之JBPM
1.2.工作流之Activiti
Hadoop内置工作流 2.1.Hadoop工作流--ChainMapper/ChainReducer
2.2.Hadoop工作流--JobControl
2.3.Hadoop内置工作流的不足
第三方框架Azkaban 3.1.Azkaban是什么
3.2.Azkaban的功能特点
3.3.Azkaban的架构
3.4.Azkaban三种运行模式
3.5.Azkaban 安装部署
3.5.1安装配置Mysql
3.5.2安装配置Azkaban Web Server
3.5.3安装配置Azkaban Executor Server
Azkaban Web Server插件安装 4.1.安装HDFS Viewer插件
4.2.安装Job Summary插件
4.3.安装Reportal插件
4.4.Azkaban Executor Server 插件安装
4.5.安装Hive插件
4.6.安装Reportalhive插件
4.7.效果监测

十三、Redis 基于内存的键值数据库

  • 1.Redis特性
  • 2.Redis各种常见数据类型详解
  • 3.Redis 安装部署
  • 4.Redis 主从安装部署
  • 5.Redis 集群安装部署
  • 6.Redis Client操作
  • 7.Redis API操作

十四、 Solr 搜索引擎

  • 1.Solr简介
  • 2.Solr与Lucene对比
  • 3.Solr安装部署
  • 4.Solr主从结构部署
  • 5.SolrCloud集群安装部署
  • 6.Solr 相关配置文件详解
  • 7.使用Solrj实现Java操作Solr
  • 8.Solr 查询详解
  • 9.Solr优化

十五、ElasticSearch 搜索引擎

  • 1.ElasticSearch简介
  • 2.ElasticSearch和Solr、Lucene的对比
  • 3.ElasticSearch配置文件详解
  • 4.ElasticSearch安装部署
  • 5.Java API操作ElasticSearch
  • 6.使用CURL操作ElasticSearch索引库
  • 7.ElasticSearch DSL查询
  • 8.ElasticSearch批量查询meet和批量操作bulk
  • 9.ElasticSearch的分页查询
  • 10.ElasticSearch中文分词工具的集成
  • 11.ElasticSearch优化
  • 12.ElasticSearch插件介绍

十六、Kafka 分布式消息系统

数据采集阶段技术对比 1.数据采集技术 2.Kafka简介 3.Flume对比 4.Sqoop对比
数据采集技术Kafka 1.Kafka原理 2.Kafka架构分析 3.Zookeeper集群相关
Kafka安装及基本操作 1.Kafka部署及操作 2.Kafka Topic操作及分析 3.Partition 操作及分析
Kafka的API操作及项目中应用 1.Kafka API 介绍及项目中应用 2.Producer 讲解及代码演示 3.Customer 讲解代码演示

十七、Storm 分布式流式计算框架

实时流式计算介绍 1.实时流式计算是什么
2.实时流式计算的特点
3.实时流式计算使用场景分析
4.Queue+Worker,S4, Storm,Spark简单介绍
认识Storm 1.Storm介绍
2.Storm特点
3.Storm优势
Storm使用场景 1.新浪的实时分析平台
2.腾讯的实时计算平台
3.奇虎360的实时平台
4.百度的实时系统
5.阿里的Jstorm
Storm的系统架构 1.主节点(Nimbus)
2.从节点(Supervisor)
3.Web节点(Storm UI)
4.协调节点(Zookeeper)
Storm的工作流 1.作业单元(Topology)
2.数据源编程单元(Spout)
3.数据处理编程单元(Bolt)
Storm的并发机制 1.服务器(Nodes)
2.JVM虚拟机(Worker)
3.线程(Executor)
4.Spout/Bolt实例(Task)
Storm的数据流 1.Stream讲解(Tuple)
2.Storm的数据模型
3.Stream Grouping
Storm的保障机制 1.功能性保障:多粒度的并行化
2.非功能性保障:多级别的可靠性
Storm部署 1.Storm版本发展历史
2.本地模式
3.分布式模式
4.主节点Nimbus
5.工作节点Supervisor
6.Storm UI
7.Storm配置项
项目如何在Storm集群下运行 1.Storm Java API
2.Topology创建与提交
3.实例操作
Kafka讲解 1.Kafka介绍
2.Kafka的消息持久化和顺序读写
3.Kafka的应用
4.Kafka的客户端
5.Storm和Kafka的对接:KafkaSpout
Storm集群的监控与管理 1.主机信息监控
2.日志监控
3.Storm UI

十八、大数据项目实战

企业级项目实战一:某权威机构广电收视率系统(Hadoop) 1.详细讲解收视率项目背景、需求、难点分析
2.详细讲解收视率项目整体架构以及技术选型
3.模拟数据源产生数据
4.使用Flume监控数据目录,将数据收集到HDFS分布式文件系统
5.编写MapReduce解析数据、清洗数据.统计分析数据,结果存储HDFS
6.使用Hive对每小时、每天、每月收视率数据进行统计
7.使用Sqoop 将Hive的分析结果数据导入MySQL数据库
8.打通项目的各个环节,整体联调
9.开发Web项目实现收视率查询、展示系统
企业级项目实战二:某移动大型电商网站数据分析系统 (一)总体需求分析
1.项目背景
2.项目价值
3.项目需求
4.项目难点分析
(二)数据采集实战
1.数据采集流程概览
2.埋点脚本执行
3.数据收集脚本执行
4.后端脚本之Lua语言详解
5.后端脚本之OpenResty详解
6.后端脚本解读
(三)架构设计和方案部署
1.HDFS 设计前提和目标
2.HDFS 适用场景
3.HDFS异构层级存储结构
4.HDFS数据压缩与IO
5.数据接入
6.Flume 数据收集
7.同类产品介绍
8.系统总体架构设计
9.大数据集群整体部署方案
10.日志收集与处理模块设计
11.数据跨小时.跨天解决方案
12.构建目标Web应用
(四)CDH5开发环境搭建
1.数据前端埋点
2.采集服务器部署
3.实现采集服务器负载均衡
4.部署HDFS集群环境(HA)
5.部署数据管道(Flume)
6.打通采集服务器到HDFS的管道
7.Flume实现按小时/天滚动日志
8.部署Yarn分布式集群(HA)
(五)分析模块实现
1.MapReduce能够解决项目中的哪些问题
2.MapReduce实现1-页面访问热度统计(pv、uv等)
3.MapReduce实现2-电影评分数据分析(join)
4.MR单元测试与集成测试
5.Azkaban 实现作业的调度与运行
(六)系统总体联调和数据可视化
1.Jmeter模拟访问产生用户日志
2.系统总体联调
3.Hadoop 性能调优
4.数据可视化
5.简历修改和面试指导
企业级项目实战三:某大型传媒公司视频网站爬虫系统 项目背景
1.了解传统广电收视率项目背景
2.用户数据有哪些价值点
3.哪些机构掌握这些数据
4.爬虫目标:互联网各大视频网站
项目总体需求
1.多维度统计:总播放指数、每日播放增量、评论数、收藏数、赞、踩
2.数据可视化:节目收视排行榜、多维度指标趋势图
难点分析
1.网站采取反爬策略
2.网站模板定期变动
3.网站URL抓取失败
4.网站频繁抓取IP被封
系统架构设计
1.总体架构解析
2.数据流向
3.功能模块划分
4.各个模块详细解读
技术选型
1.数据采集层
2.数据存储层
3.数据处理层
4.数据展示层
部署方案
1.爬虫项目:分布式集群
2.爬虫定时项目:一台服务器
3.爬虫项目监控:一台服务器
4.爬虫可视化:多台服务器
5.Hbase数据库:分布式集群
6.Redis数据库:分布式集群
7.Solr 全文检索:分布式集群
8.Zookeeper 监控:分布式集群
9.Solr 建立索引:一台服务器
10.邮件提醒:一台服务器
爬虫代码详尽实现
1.下载、解析视频网站详情页面url,提取关键字段数据
2.抽取视频网站解析规则模板,优化解析代码
3.打通数据爬虫的下载、解析、存储流程
4.采用Hbase存储爬虫数据,详解Hbase宽表和窄表设计以及爬虫项目表的详细设计,包含rowKey设计、列簇设计、历史版本
5.解析视频网站所有分页url并优化解析实现类
6.使用Queue队列存储视频网站所有url,实现视频网站url循环抓取
7.采用高、低优先级队列循环抓取视频网站url
8.采用Redis数据库实现url抓取优先级,并支持分布式爬虫
9.采用多线程爬虫,加快爬虫效率
10.定时启动爬虫项目
11.完善爬虫项目、补充抓取关键字段数据
全文检索
1.Lucene.Solr.ElasticSearch简介
2.全文检索过程:索引创建和搜索索引
3.解决全文检索的核心问题
4.Solr+Hbase组合提升检索效率
5.Solr 配置详解
6.Solr 安装部署
7.Solr 建立索引
8.Solr 检索视频网站数据
数据可视化
1.采用SpringMVC框架编写爬虫Web项目
2.编写Hbase工具类查询Hbase数据
3.编写Solr工具类检索爬虫数据
4.采用Freemarker或者jsp展示页面
5.采用Highcharts插件展示收视指数曲线图
6.打通爬虫整个项目流程,实时查看收视排行榜以及收视指数曲线图
项目优化一
1.设置合理的抓取时间间隔,模拟正常用户访问,降低IP被封概率
2.采用Redis 动态IP库,随机获取IP,随机抓取不同网站数据,降低同一IP对统一网站的访问频率
3.实现分布式爬虫,提高爬虫效率
项目优化二
1.Ganglia.Zookeeper简介
2.详解Zookeeper特性监控爬虫项目
3.完善爬虫项目注册Zookeeper集群
4.编写Watcher监视器监控爬虫项目生命周期
5.集群监控的整体联调
项目优化三
1.监控器监控爬虫项目异常,异常数据插入数据库
2.编写邮件Mail项目扫描爬虫项目异常信息,通知运维人员
3.编写定时器定时执行Mail项目
企业级项目实战四:某淘OpenTSDB时间序列分析项目 1.结合企业应用介绍SAAS、PAAS、IAAS
2.通过Ganglia熟悉SAAS产品
3.OpenTSDB 项目需求介绍
4.HBase 测试环境安装
5.HBase 基础知识回顾
6.HBase在各种场景如何保证区分新旧数据
7.Hbase 访问方式
8.Hbase 编程
9.HBase数据接入
10.HBase性能优化
11.OpenTSDB 安装搭建
12.SAAS产品的架构详细讲解
13.OpenTSDB tcollector(自带的探针)采集数据
14.用Tcollector来监控HBase或者Zookeeper
15.Grafana来监控Flume
16.Kafka 消息队列缓存数据
17.数据接入
18.写性能优化
19.HBase 性能调优
20.HBase在资源紧张时降低IO的手段
21.HBase 冷热数据处理
22.大数据系统维护方案
企业级项目实战五:某婚恋网站后台日志实时分析系统(Storm) 业务背景
1.案例背景
2.设计目标
3.分析需求
系统架构与模块设计
1.整体架构
2.数据源
3.数据存储与处理
核心模块实现
1.模拟数据实现
2.日志采集和存储实现
3.数据处理实现
项目部署上线
1.上线大致流程
2.注意事项
3.项目监控

9元试学7天 | 点击申请试学优惠码 >   讲师是谁?实战项目够大吗?   没有Hadoop基础可以学会吗?

一线师资无保留亲授,4个月16周64次直播128小时

多名实战派老师组团研发授课和视频,累积课时640+

Felix大牛讲师

Felix

国内最大的众包服务平台

大数据高级架构师

国内最大的众包服务平台大数据高级架构师,8年一线开发及项目管理经验,4年以上大数据系统架构及分析处理经验,骨灰级大数据玩家。曾就职于国内某TOP5的电信相关业务公司,负责对手机信息收集处理工作,对于Hadoop、Storm、Spark有较深研究。搭建、维护过上百节点集群,处理过PB级数据。 因技术出色,多次在知名企业内部进行大数据技能培训,对一线企业大数据方面的技能需求非常了解。

试听体验

杨俊资深架构师

杨俊

原某广电数据咨询公司

大数据高级架构师

原某广电数据咨询公司大数据高级架构师 资深Java玩家,大数据技术狂热者。曾在北京某广电数据咨询公司担任大数据高级架构师,6年以上大数据实操经验, 经历过10个以上的重量级大数据项目。Hadoop源码级技术大咖,熟练使用Hadoop、Hive、HBase等各大主流组件。谦虚亲和,崇尚实操至上的教学理念。受到学员一致好评。

试听体验

荣智坤资深全栈工程师

荣智坤

国内TOP5的视频网站

大数据资深工程师

资深全栈工程师,从业时间6年,先后服务于三家国内外上市公司,目前在国内TOP5的视频网站任大数据小组Leader。参与或负责过大型CDN文件传输系统,电信计费系统、大数据分析系统、中间件等多个重量级项目。精通Java、Python、Shell,熟悉Web应用开发。专注于大数据产品的研发和设计,能够熟练使用Hadoop、Hive、SQL来分析海量数据为决策提供依据。 技术狂,崇尚解决问题是开发人员的使命。

试听体验

李大明大牛讲师

李大明

原百度、GREE、中软

工程师

北大硕士,曾服务于百度、GREE、中软等多家优秀企业。数学功底深厚,精通数据结构和算法,在大流量、高并发互联网项目架构及开发方面有很深的造诣。经常被身边朋友同事请教数据结构和算法,包括百度和中软的技术大牛在内,其本人也以此为乐;谦逊,和学生交流过程中从不摆谱,永远像朋友一样;QQ长期在线,只要不忙就会及时回复响应,不厌其烦的交流。

试听体验

5大服务承诺,让你无后顾之忧!

9元/99元试学7天

满意后再付款

跳槽换工作

1年内不限次推荐

错过直播

次日在线视频回看

一次不过瘾

免费直播复训

全款学习

赠送Spark就业课程

还有问题?

我要咨询