爬虫面试(1)

爬虫面试流程:先自我介绍(年龄学历毕业时间学校入职时间工作年限经验等等,顺带之前的公司说一下,还有介绍一下自己会的技术,说说自己的技能点)介绍项目,简历上的项目都说一下,有些有难点的可以多说说,难点不高的直接简介(这个时候,有的人会直接打断你,问你项目中的啥啥啥是如何实现的),介绍项目的时候竟然多说

Javascript快速入门

JavaScript 编程语言允许你在 Web 页面上实现复杂的功能。如果你看到一个网页不仅仅显示静态的信息,而是显示依时间更新的内容,或者交互式地图,或者 2D/3D 动画图像,或者滚动的视频播放器,等等——你基本可以确定,这需要 JavaScript 的参与。(js和java没有关系)

Rule和LinkExtractor

Rule是在定义抽取链接的规则,上面的两条规则分别对应列表页的各个分页页面和详情页,关键点在于通过restrict_xpath来限定只从页面特定的部分来抽取接下来将要爬取的链接。

读取写入CSV文件

1.写入CSV文件的两种方式一、使用writerow:写入数据到csv文件,需要创建一个writer对象,主要用到两个方法。一个是writerow,这个是写入一行。一个是writerows,这个是写入多行。示例代码如下:import csvheaders = [‘name’,‘age’,‘class

JSON文件格式处理

JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。

米游社图片找不到的问题


在今天爬取https://ys.mihoyo.com/main/character/mondstadt?char=5网站时发现找不到图片路径解决方法如下:查看源码点击换行,或者复制到vscode格式化格式化后搜索图片路径发现搜索不到,可以搜索下关键字注意到代码有特殊字符,对其进行如下操作print(

rides+scrapy+bloom过滤器整合

scrapy_splash的过滤器# scrapy_splash# 渲染服务的url, 这里换成你自己的SPLASH_URL = 'http://192.168.31.172:8050'# 下载器中间件, 这个必须要配置DOWNLOADER_MIDDLEWARES = { &#

网站使用js调试禁止用户唤醒开发者工具


如下图所示:点击开发者右侧所示按钮,即可屏蔽该反爬

分布式爬虫

​分布式爬虫, 就是搭建一个分布式的集群, 让其对一组资源进行分布联合爬取.​既然要集群来抓取. 意味着会有好几个爬虫同时运行. 那此时就非常容易产生这样一个问题. 如果有重复的url怎么办? 在原来的程序中. scrapy中会由调度器来自动完成这个任务. 但是, 此时是多个爬虫一起跑. 而我们又

CrawlSpide的使用

在scrapy中提供了CrawlSpider来完成全站数据抓取.创建项目scrapy startproject qichezhijia进入项目cd qichezhijia创建爬虫(CrawlSpider)scrapy genspider -t crawl ershouche che168.com和以