57uv6Z6g55qE5Y2a5a6i

MS4wLjABAAAA5qMD8Gzdcgq7HXUOviKB59i0-ybJ59jJvNzyaPt5XOsVNqP6DU7WLcoAXvdxvYdp💗
本站所有文章仅作技术研究，请勿非法破坏，请遵守相关法律法规，后果自负

【笔记】lxml学习笔记

发表于 2024-10-18 更新于 2026-03-17 阅读次数：

前言

lxml is the most feature-rich and easy-to-use library for processing XML and HTML in the Python language. It’s also very fast and memory friendly, just so you know.（Github）

下载依赖

1	pip3 install lxml

引入依赖

1	from lxml import etree

通过HTML字符串创建Element对象

在解析HTML字符串的同时，会自动补齐缺失的HTML标签

<html>：HTML字符串

1	html = etree.HTML("<html>")

利用XPath语法提取数据

返回列表

<xpath>：XPath语法

1	result = html.xpath("<xpath>")

将Element对象转换为字符串

1	result = etree.tostring(html)

完成

参考文献

Mastodon Comments
twikoo

0%