全网独一无二的“直播+视频+图文+答疑”混合式学习模式,
每一步操作,每一行代码都可以100% Get到,绝不走马观花,
30天搞定大数据爬虫项目,妥妥的!
课程特色
1、基于绝对真实的爬虫项目进行优化和拆解,大幅提升Hadoop综合项目经验,年后跳槽面试绝对不心虚。
2、涵盖爬虫项目完整流程,包括数据爬虫、全文检索、数据可视化、爬虫项目监控、爬虫项目维护等等。
3、手把手教你破解爬虫项目中遇到的棘手难题,包括破解网站反爬策略、网站模板定期变更、网站频繁访问IP被封等等。
4、全网独一无二的“直播+视频+图文+答疑”混合式学习模式,每一步操作,每一行代码都可以100% Get到,绝不走马观花,30天搞定大数据爬虫项目,妥妥的!
项目涉及技术
Java、HttpClient、Redis、Solr、HBase、Zookeeper、HighChart、HTMLEmail
基础要求
本课程面向有Java基础,有Hadoop大数据平台基础,希望进一步学习大数据爬虫项目的朋友;
讲师介绍
-
杨俊
大讲台大数据高级讲师 | 原某广电数据咨询公司大数据高级架构师
原某广电数据咨询公司大数据高级架构师 资深Java玩家,大数据技术狂热者。曾在北京某广电数据咨询公司担任大数据高级架构师,7年以上大数据实操经验, 经历过10个以上的重量级大数据项目。Hadoop源码级技术大咖,熟练使用Hadoop、Spark、Hive、HBase、Flume、Kafka等各大主流组件。谦虚亲和,崇尚实操至上的教学理念。受到学员一致好评。
课程大纲
1、爬虫项目:分布式集群 2、爬虫定时项目:一台服务器 3、爬虫项目监控:一台服务器 4、爬虫可视化:多台服务器 5、Hbase数据库:分布式集群 6、Redis数据库:分布式集群 7、Solr 全文检索:分布式集群 8、Zookeeper 监控:分布式集群 9、Solr 建立索引:一台服务器 10、邮件提醒:一台服务器 |
1、下载、解析视频网站详情页面url,提取关键字段数据 2、抽取视频网站解析规则模板,优化解析代码 3、打通数据爬虫的下载、解析、存储流程 4、采用Hbase存储爬虫数据,详解Hbase宽表和窄表设计以及爬虫项目表的详细设计,包含rowKey设计、列簇设计、历史版本 5、解析视频网站所有分页url并优化解析实现类 6、使用Queue队列存储视频网站所有url,实现视频网站url循环抓取 7、采用高、低优先级队列循环抓取视频网站url 8、采用Redis数据库实现url抓取优先级,并支持分布式爬虫 9、采用多线程爬虫,加快爬虫效率 10、定时启动爬虫项目 11、完善爬虫项目、补充抓取关键字段数据 |
1、Lucene、Solr、ElasticSearch简介 2、全文检索过程:索引创建和搜索索引 3、解决全文检索的核心问题 4、Solr+Hbase组合提升检索效率 5、Solr 配置详解 6、Solr 安装部署 7、Solr 建立索引 8、Solr 检索视频网站数据 |
1、采用SpringMVC框架编写爬虫Web项目 2、编写Hbase工具类查询Hbase数据 3、编写Solr工具类检索爬虫数据 4、采用Freemarker或者jsp展示页面 5、采用Highcharts插件展示收视指数曲线图 6、打通爬虫整个项目流程,实时查看收视排行榜以及收视指数曲线图 |
1、设置合理的抓取时间间隔,模拟正常用户访问,降低IP被封概率 2、采用Redis 动态IP库,随机获取IP,随机抓取不同网站数据,降低同一IP对统一网站的访问频率 3、实现分布式爬虫,提高爬虫效率 |
1、Ganglia、Zookeeper简介 2、详解Zookeeper特性监控爬虫项目 3、完善爬虫项目注册Zookeeper集群 4、编写Watcher监视器监控爬虫项目生命周期 5、集群监控的整体联调 |