【笔记】Selenium学习笔记

发表于 2023-09-01 更新于 2026-04-06 阅读次数：

前言

Selenium 是一个综合性的项目，为web浏览器的自动化提供了各种工具和依赖包。（维基百科）

Python3通过Selenium实现爬虫
本案例基于GoogleChrome实现

下载驱动

下载依赖

1	pip3 install selenium

引入依赖

1	from selenium import webdriver

创建驱动对象

创建驱动对象后会自动打开一个新的浏览器窗口，无论当前是否已经存在一个浏览器窗口

1	driver = webdriver.Chrome()

1	driver = webdriver.Firefox()

1	driver = webdriver.IE()

1	driver = webdriver.Edge()

1	driver = webdriver.Safari()

指定Chrome路径和用户数据保存路径

<chrome_dir>/chrome.exe：指定Chrome路径
<chrome_dir>/<dir>：指定用户数据保存路径

from selenium.webdriver.chrome.options import Options

options = Options()
options.binary_location = r"<chrome_dir>/chrome.exe"
options.add_argument(r"user-data-dir=<chrome_dir>/<dir>")

driver = webdriver.Chrome(options=options)

指定Chrome驱动路径

from selenium.webdriver.chrome.service import Service

service = Service(r"<chrome_drive_dir>/chromedriver.exe")
driver = webdriver.Chrome(service=service)

等待浏览器完全打开

import time

driver = webdriver.Chrome()
time.sleep(5)

使用完后自动销毁

1 2	with webdriver.Chrome() as driver: ...

销毁驱动对象

销毁驱动对象后会关闭浏览器窗口

1	driver.quit()

访问URL

<url>：浏览器访问的URL链接

1	driver.get("<url>")

查找元素

引入依赖

1	from selenium.webdriver.common.by import By

ById

<id>：HTML标签的id

1	res = driver.find_element(by=By.NAME, value="<id>")

获取文本数据

获取的是HTML标签的innerText不包含子标签

res.text

获取属性值

获取HTML标签的属性值

<key>：属性名

1	value = res.get_attribute("<key>")

模拟点击

1	res.click()

ByCSSSelector

.father .son：CSS选择器选择的内容

1	res_list = driver.find_element(by=By.CSS_SELECTOR, value=".father .son")

获取数据

需要遍历列表才能操作对象

1 2	for res in res_list: res.text

执行JS

<javascript>：JS代码

1	driver.execute_script("<javascript>")

获取JS返回值

1	res = driver.execute_script("return 0")

报错

浏览器启动后只会访问data:,

解决问题

指定用户保存路径

传送门

完成

参考文献

Selenium官方中文文档
 简书——InsaneLoafer
CSDN——菜菜子想要飞
 AnonyEast的博客
 博客园——水清梦蓝
 博客园——苏念雨