大数据实战派 都爱大讲台

当前位置:首页  /  课程  /  30天搞定大数据爬虫项目

30天搞定大数据爬虫项目

30天搞定大数据爬虫项目

分享到:

本项目采用Java语言实现,基于真实的爬虫项目进行改进和优化,希望进一步提升大家的大数据项目经验。本项目基本涵盖了爬虫项目的整个流程,包括数据爬虫、全文检索、数据可视化、爬虫项目监控、爬虫项目维护等等。解决了爬虫项目中遇到的棘手问题,包括破解网站反爬策略、网站模板定期变更、网站频繁访问IP被封等等问题。

  • ¥299   ¥399 

  • VIP免费

时长    16小时52分41秒(录播)+16小时(直播)          

免费试学 全款购买 当前学习人数 514 收藏

有效期:36500天
有效期自支付成功后开始计算。

全网独一无二的“直播+视频+图文+答疑”混合式学习模式,
每一步操作,每一行代码都可以100% Get到,绝不走马观花,
30天搞定大数据爬虫项目,妥妥的!


课程特色

1、基于绝对真实的爬虫项目进行优化和拆解,大幅提升Hadoop综合项目经验,年后跳槽面试绝对不心虚。

2、涵盖爬虫项目完整流程,包括数据爬虫、全文检索、数据可视化、爬虫项目监控、爬虫项目维护等等。

3、手把手教你破解爬虫项目中遇到的棘手难题,包括破解网站反爬策略、网站模板定期变更、网站频繁访问IP被封等等。

4、全网独一无二的“直播+视频+图文+答疑”混合式学习模式,每一步操作,每一行代码都可以100% Get到,绝不走马观花,30天搞定大数据爬虫项目,妥妥的!

项目涉及技术

Java、HttpClient、Redis、Solr、HBase、Zookeeper、HighChart、HTMLEmail

基础要求

本课程面向有Java基础,有Hadoop大数据平台基础,希望进一步学习大数据爬虫项目的朋友;

讲师介绍

  • 杨俊

    大讲台大数据高级讲师 | 原某广电数据咨询公司大数据高级架构师

    原某广电数据咨询公司大数据高级架构师 资深Java玩家,大数据技术狂热者。曾在北京某广电数据咨询公司担任大数据高级架构师,7年以上大数据实操经验, 经历过10个以上的重量级大数据项目。Hadoop源码级技术大咖,熟练使用Hadoop、Spark、Hive、HBase、Flume、Kafka等各大主流组件。谦虚亲和,崇尚实操至上的教学理念。受到学员一致好评。

课程大纲

项目背景
1、了解传统广电收视率项目背景
2、用户数据有哪些价值点
3、哪些机构掌握这些数据
4、爬虫目标:互联网各大视频网站
项目总体需求
1、多维度统计:总播放指数、每日播放增量、评论数、收藏数、赞、踩
2、数据可视化:节目收视排行榜、多维度指标趋势图
难点分析
1、网站采取反爬策略
2、网站模板定期变动
3、网站URL抓取失败
4、网站频繁抓取IP被封
系统架构设计
1、总体架构解析
2、数据流向
3、功能模块划分
4、各个模块详细解读
技术选型
1、数据采集层
2、数据存储层
3、数据处理层
4、数据展示层
部署方案
1、爬虫项目:分布式集群
2、爬虫定时项目:一台服务器
3、爬虫项目监控:一台服务器
4、爬虫可视化:多台服务器
5、Hbase数据库:分布式集群
6、Redis数据库:分布式集群
7、Solr 全文检索:分布式集群
8、Zookeeper 监控:分布式集群
9、Solr 建立索引:一台服务器
10、邮件提醒:一台服务器
爬虫代码详尽实现
1、下载、解析视频网站详情页面url,提取关键字段数据
2、抽取视频网站解析规则模板,优化解析代码
3、打通数据爬虫的下载、解析、存储流程
4、采用Hbase存储爬虫数据,详解Hbase宽表和窄表设计以及爬虫项目表的详细设计,包含rowKey设计、列簇设计、历史版本
5、解析视频网站所有分页url并优化解析实现类
6、使用Queue队列存储视频网站所有url,实现视频网站url循环抓取
7、采用高、低优先级队列循环抓取视频网站url
8、采用Redis数据库实现url抓取优先级,并支持分布式爬虫
9、采用多线程爬虫,加快爬虫效率
10、定时启动爬虫项目
11、完善爬虫项目、补充抓取关键字段数据
全文检索
1、Lucene、Solr、ElasticSearch简介
2、全文检索过程:索引创建和搜索索引
3、解决全文检索的核心问题
4、Solr+Hbase组合提升检索效率
5、Solr 配置详解
6、Solr 安装部署
7、Solr 建立索引
8、Solr 检索视频网站数据
数据可视化
1、采用SpringMVC框架编写爬虫Web项目
2、编写Hbase工具类查询Hbase数据
3、编写Solr工具类检索爬虫数据
4、采用Freemarker或者jsp展示页面
5、采用Highcharts插件展示收视指数曲线图
6、打通爬虫整个项目流程,实时查看收视排行榜以及收视指数曲线图
项目优化一
1、设置合理的抓取时间间隔,模拟正常用户访问,降低IP被封概率
2、采用Redis 动态IP库,随机获取IP,随机抓取不同网站数据,降低同一IP对统一网站的访问频率
3、实现分布式爬虫,提高爬虫效率
项目优化二
1、Ganglia、Zookeeper简介
2、详解Zookeeper特性监控爬虫项目
3、完善爬虫项目注册Zookeeper集群
4、编写Watcher监视器监控爬虫项目生命周期
5、集群监控的整体联调
项目优化三
1、监控器监控爬虫项目异常,异常数据插入数据库
2、编写邮件Mail项目扫描爬虫项目异常信息,通知运维人员
3、编写定时器定时执行Mail项目

你可能还喜欢的课程

  • 【千元钜惠】 资深大数据架构大佬全程直播,传授硬核技能:①OLAP/HTAP/湖仓一体等多种架构;②借FlinkCDC/Kylin/Hudi/Doris等打造数仓;③湖仓一体化项目落地实践;④基于Flink和StreamX打造低代码大数据中台

    查看详情 QQ咨询

    大数据实战精英+架构师班

    查看详情 4个月

  • 【千元钜惠】 手握6000+节点的大数据运维大咖全程直播,4个月带你熟悉大数据集群规划、部署、监控、排错、容器化等技能,并完成3个商业项目。

    查看详情 QQ咨询

    大数据运维尖刀班

    查看详情 4个月

  • 【3重优惠】 技术大牛组团授课,专讲大数据核心知识和大型项目实战,多台物理服务器数十个节点现场直播演示!企业级实战项目让你四个月掌握2年的项目经验!

    查看详情 QQ咨询

    大数据开发工程师特训营

    查看详情 16周

  • 【优惠活动】 新东方、搜狗、腾讯等名企一线实战讲师授课,技“高”一筹!重在培养数据分析方法及思路,而不仅仅是学习技术及工具。带教多个互联网及金融领域企业真实项目,而不仅仅是讲理论和小案例。

    查看详情 QQ咨询

    数据分析特训营

    查看详情 16周

  • 本课程为大数据金融信贷项目实战课,着重讲解企业中常用的大数据技术理论与实战,如Hadoop、Hive、HBase、Sqoop、Flume、Kafka、Spark Streaming、Spark SQL、Spark Structured Streaming等。课程包含离线项目和实时项目,从项目业务需求、技术选型、架构设计、集群安装部署、集成开发以及项目可视化进行多方位实战讲解。

    查看详情 QQ咨询

    互联网金融信贷项目实战(Hadoop&Spark)

    查看详情 38小时44分钟

  • 干货多:15案例 + 3实战 + 2项目;
    提升快:滴滴出行一线架构师传授实战经验,30小时多方位讲解数据仓库构建相关理论及实战内容
    技术全:综合运用Hive/Flume/Kafka/Azkaban/Oozie/SparkSQL等技术;

    查看详情 QQ咨询

    基于大数据体系构建数据仓库

    查看详情 32小时52分钟

  • 本课程基于某电商公司运营实时分析系统(2B),对Flink进行系统讲解。通过本课程的学习,既能获得Flink企业级真实项目经验,也能深入掌握Flink的核心理论知识,还能获得Flink在生产环境中安装、部署、监控的宝贵经验,从而深入掌握Flink技术。

    查看详情 QQ咨询

    Flink电商运营项目实战

    查看详情 50小时6分钟

他们在学

  • 187****6581

  • taotao

  • 27792

  • 135****5098

  • 微微笑

  • 微信用户27865

  • 186****8597

  • 158****2045

  • 沙滩☆落日

  • 152****6859

  • 191****5982

  • 182****3891

  • 157****7450

  • 188****5237

  • 102****9124

  • 天禄~☺️努力努力再努力

 
QQ在线咨询
微信扫码咨询