【笔记】通过浏览器插件实现0代码爬虫

前言

通过浏览器插件实现0代码爬虫

安装插件

Firefox

配置爬虫

  • 插件安装成功后,打开控制台(要将控制台放到屏幕下方),然后选择Web Scraper标签->Create new sitemap->Create Sitemap

每一个爬虫项目被称为Sitemap

Sitemap name:新建的爬虫项目名
Start URL:爬取的站点,通过[]可以遍历多个页

  • Sitemap xxx->Selectors->Add new selector

每一种爬取的内容被称为Selector

  • 通过Select按钮可以通过手动选择的方式定义爬取规则,手动指定相同类型的元素2次后,爬虫就会自己嗅探出所有相同类型的元素->选择完成后点击Done selecting自动生成爬取规则
  • 如果会写代码,也可以自定义CSS选择器来编写规则

  • 填写爬取规则->Save selector

Id:指定这个Selector的名称,只能输入英文,而且不能与其他Selector重名
Type:得到的数据的类型
Multiple:勾选Multiple会在爬取的时候选中所有相同类型的元素,如果没有勾选,在爬取每个页的时候只会得到第一个当前类型的元素

开始执行爬虫

  • Sitemap xxx->Scrape

  • 配置延迟

  • 此时会自动弹出来一个新的页面,这个新的页面就是爬虫正在访问的页面,稍等一会回到爬虫的配置页面点击refresh刷新,即可看到爬取到的数据


导出爬取结果数据

  • Sitemap xxx->Export data

  • 选择导出的文件格式

完成

  • 截图纪念

参考文献

少数派——邓锄头