Python爬虫框架Scrapy入门 PDF 下载_Java知识分享网-免费Java资源下载

Python爬虫框架Scrapy入门 PDF 下载

转载自：http://www.python222.com/article/1294

相关截图：

主要内容：

一、爬虫定义

网络爬虫(Web crawler)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，它们被广泛用于互联网搜索引擎或其他类似网站，可以自动采集所有其能够访问到的页面，以获取这些网站的内容。l

从功能上来讲，爬虫一般分为数据采集，处理，储存三个部分。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

二、所需知识

需要的知识有: linux系统+ Python语言 +Scrapy框架＋XPath KXML路径语言) ＋一些辅助工具(浏览器的开发者工具和XPathhelper插件)。

我们的爬虫是使用Python语言的Scrapy爬虫框架开发，在linux上运行，所以需要熟练掌握Python语言和Scrapy框架以及linux操作系统的基本知识。

我们需要使用XPath从目标HTML页面中提取我们想要的东西，包括汉语文字段落和“下一页”的链接等。

最新Java全栈就业实战课程(免费)