Rule和LinkExtractor

Rule是在定义抽取链接的规则,上面的两条规则分别对应列表页的各个分页页面和详情页,关键点在于通过restrict_xpath来限定只从页面特定的部分来抽取接下来将要爬取的链接。

rides+scrapy+bloom过滤器整合

scrapy_splash的过滤器# scrapy_splash# 渲染服务的url, 这里换成你自己的SPLASH_URL = 'http://192.168.31.172:8050'# 下载器中间件, 这个必须要配置DOWNLOADER_MIDDLEWARES = { &#

网站使用js调试禁止用户唤醒开发者工具


如下图所示:点击开发者右侧所示按钮,即可屏蔽该反爬

分布式爬虫

​分布式爬虫, 就是搭建一个分布式的集群, 让其对一组资源进行分布联合爬取.​既然要集群来抓取. 意味着会有好几个爬虫同时运行. 那此时就非常容易产生这样一个问题. 如果有重复的url怎么办? 在原来的程序中. scrapy中会由调度器来自动完成这个任务. 但是, 此时是多个爬虫一起跑. 而我们又

CrawlSpide的使用

在scrapy中提供了CrawlSpider来完成全站数据抓取.创建项目scrapy startproject qichezhijia进入项目cd qichezhijia创建爬虫(CrawlSpider)scrapy genspider -t crawl ershouche che168.com和以

Scrapy管道

1. csv文件写入​写入文件是一个非常简单的事情. 直接在pipeline中开启文件即可. 但这里要说明的是. 如果我们只在process_item中进行处理文件是不够优雅的. 总不能有一条数据就open一次吧class CaipiaoFilePipeline: def proce

Scrapy 基本介绍与使用

爬虫工程化: 对爬虫的功能进行模块化的开发. 并达到可以批量生产的效果(不论是开发还是数据产出)

图鉴验证码识别代码模板


import base64import jsonimport requests# 一、图片文字类型(默认 3 数英混合):# 1 : 纯数字# 1001:纯数字2# 2 : 纯英文# 1002:纯英文2# 3 : 数英混合# 1003:数英混合2# 4 : 闪动GIF# 7 : 无感学习(独家)#

requests模块入门

常用的抓取页面的模块通常使用一个第三方模块requests. 这个模块的优势就是比urllib还要简单, 并且处理各种请求都比较方便.

xpath解析

XPath是一门在 XML 文档中查找信息的语言. XPath可用来在 XML 文档中对元素和属性进行遍历. 而我们熟知的HTML恰巧属于XML的一个子集. 所以完全可以用xpath去查找html中的内容