反爬虫系统实战教程【大数据培训】

更新时间:2020-06-02 来源:黑马程序员浏览量:

	大数据实战项目\|反爬虫系统【Lua+Spark+Redis+Hadoop框架搭建】
	中级	共19节课
	项目采用Lua+Spark+Redis+Hadoop框架搭建,包含状态监控,反爬指标配置,运营指标监控展示等功能。提取码：t3ld
	下载完整视频（已有3541人下载）

视频教程概述

课程介绍

很多订票网站的官网在互联网提供查询、预订等服务，如：各种航空公司的官网、去哪网、携程等，有大量正常用户访问的同时，也存在大量爬虫。爬虫消耗了系统资源，但是却没有转化成销量，导致系统资源虚耗，严重时会造成系统波动，影响正常用户访问购票。大量热门路线的好车次和航线的特价舱位吸引正常用户通过官网订票的同时，也存在大量恶意占座的非法代理（黄牛）。通过不断的订座但不支付，利用这些虚占的座位进行非法盈利，通过系统日志分析等，发现官网存在大量的非法占座会员及非会员手机号用户。为了限制伪装技术越来越强的爬虫访问和恶意占座行为，需要开发大数据防爬工具。项目采用Lua+Spark+Redis+Hadoop框架搭建,包含状态监控,反爬指标配置,运营指标监控展示等功能。

课程内容：

1、项目整体介绍和数据采集模块详细介绍

2、openresty安装和lua语法学习

3、数据采集模块开发和反爬虫工程创建及链路统计功能开发

4、数据预处理模块：数据清洗和脱敏和打标签及数据解析

5、"数据结构化和数据推送 spark系统监控功能开发实现反爬平台系统监控6、爬虫识别指标计算7、爬虫数据备份恢复和离线计算

适用人群：

1、对大数据Spark感兴趣的在校生及应届毕业生。

2、对目前职业有进一步提升要求，希望从事大数据行业高薪工作的在职人员。

3、对大数据行业感兴趣的相关人员。

课程目录：

第一章项目概述