【笔记】通过浏览器插件实现0代码爬虫
前言
通过浏览器插件实现0代码爬虫
安装插件
Firefox
配置爬虫
- 插件安装成功后,打开控制台(要将控制台放到屏幕下方),然后选择
Web Scraper标签->Create new sitemap->Create Sitemap
每一个爬虫项目被称为Sitemap

Sitemap name:新建的爬虫项目名Start URL:爬取的站点,通过[]可以遍历多个页

Sitemap xxx->Selectors->Add new selector
每一种爬取的内容被称为Selector

- 通过
Select按钮可以通过手动选择的方式定义爬取规则,手动指定相同类型的元素2次后,爬虫就会自己嗅探出所有相同类型的元素->选择完成后点击Done selecting自动生成爬取规则 - 如果会写代码,也可以自定义CSS选择器来编写规则

- 填写爬取规则->
Save selector
Id:指定这个Selector的名称,只能输入英文,而且不能与其他Selector重名Type:得到的数据的类型Multiple:勾选Multiple会在爬取的时候选中所有相同类型的元素,如果没有勾选,在爬取每个页的时候只会得到第一个当前类型的元素

开始执行爬虫
Sitemap xxx->Scrape

- 配置延迟

- 此时会自动弹出来一个新的页面,这个新的页面就是爬虫正在访问的页面,稍等一会回到爬虫的配置页面点击
refresh刷新,即可看到爬取到的数据


导出爬取结果数据
Sitemap xxx->Export data

- 选择导出的文件格式

完成
- 截图纪念
