Java知识分享网 - 轻松学习从此开始!    

Java知识分享网

Java1234官方群25:java1234官方群17
Java1234官方群25:838462530
        
SpringBoot+SpringSecurity+Vue+ElementPlus权限系统实战课程 震撼发布        

最新Java全栈就业实战课程(免费)

springcloud分布式电商秒杀实战课程

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦!

Python学习路线图

锋哥开始收Java学员啦!
当前位置: 主页 > Java文档 > 大数据云计算 >

大数据项目之反爬随堂笔记 PDF 下载


分享到:
时间:2021-06-21 06:46来源:http://www.java1234.com 作者:转载  侵权举报
大数据项目之反爬随堂笔记 PDF 下载
失效链接处理
大数据项目之反爬随堂笔记 PDF 下载


本站整理下载:
提取码:zhs1 
 
 
相关截图:
 
主要内容:

项⽬阶段介绍
⽬标:了解反爬⾍项⽬的阶段划分,以及每个阶段要学习的内容
第⼀阶段
反爬⾍项⽬总体价绍,主要包括(背景、需求、流程、架构、openresty介绍、lua语法学习)
第⼆阶段
Lua采集数据写⼊kafka,搭建项⽬框架、Streaming读取kafka数据、链路统计功能实现
第三阶段
实现数据预处理的数据清洗、脱敏、拆分、分类(⻜⾏类型/操作类型,单程/往返)、解析等功能
第四阶段
实现数据预处理的数据历史爬⾍、结构化、数据推送、数据预处理监控、前端读取后端数据等功能
第五阶段
读取预处理后的数据、进⾏封装、分别统计⼋个指标的数据
第六阶段
根据已经算出的⼋项指标结果,进⾏爬⾍识别、剔除⾮爬⾍数据、写⼊Redis,写⼊HDFS,Redis数
据恢复等
第七阶段
爬⾍分析性能的计算与监控、离线指标分析
知识点1:项⽬背景
⽬标:了解反爬⾍项⽬的背景
各⼤售票⽹⽹站对外提供了购票,查票⻔户,吸引正常⽤户的同时,也吸引了⼤量的爬⾍⽤户,爬⾍
会造成企业内的服务器负载较⾼,但是转化率极低,企业为了解决这个问题,需要⼀个反爬⾍系统,进
⾏爬⾍的识别最终屏蔽爬⾍。​
知识点2:项⽬概述
数据管理模块
1、⽀持对数据采集和分类的配置和管理
2、⽀持对数据各种处理的配置和管理
流程管理模块
1、⽀持流程定义和可配置管理
2、根据监控模块反馈的情况,系统⾃动执⾏相应的策略
3、⽀持⼈⼯执⾏相应的策略
策略管理模块
1、⽀持策略的定义和配置管理
2、配置爬⾍和占座⾏为匹配成功后的系统或⼈⼯应对⽅法
3、关联爬⾍和占座⾏为与机器学习算法的选择和算法参数的阈值
规则管理模块
1、⽀持规则定义和可配置管理
2、⽀持⼈⼯制定爬⾍和占座过滤规则
3、⽀持定制规则参数阈值
实时监控模块
1、对系统所采集的各种数据和特征进⾏实时监控和深度分析
2、通过模型分析和预测,智能识别和判断爬⾍活动与性质
3、通过监控系统反馈的稳定性和负载情况,间接反映可能的爬⾍活动情况
数据可视化管
理模块
1、将⼈⼯难以识别的数据制定图表或图形化,利于从中发现规律和价值
2、提供各种内置标准报表(转化率、爬取规律、占座规律、爬⾍对查定⽐及
系统稳定性的影响等)
⽬标:了解企业端有哪些模块
知识点3:数据处理的总体流程
⽬标:掌握反爬⾍项⽬数据处理的总体流程
数据采集
​ 1、通过Lua采集收集反爬⾍需要的数据
​ 2、将收集的数据打⼊Kafka
数据预处理
​ 3-1、在Kafka中读取数据到数据预处理的程序中
​ 3-2、在数据库中读取相关的规则到程序,准备对数据进⾏计算。
​ 4、 将预处理完毕的数据发送回Kafka
实时计算(爬⾍识别)
​ 5-1、在Kafka中读取预处理后的数据到爬⾍识别的程序中
​ 5-2、在数据库中读取数据到程序
​ 6、 将识别到的爬⾍写⼊
离线计算
 ​ 8、将预处理后的数据写⼊HDFS
​ 9、计算离线指标数据并写⼊Mysql

 

------分隔线----------------------------

锋哥公众号


锋哥微信


关注公众号
【Java资料站】
回复 666
获取 
66套java
从菜鸡到大神
项目实战课程

锋哥推荐