一、lxml库介绍
lxml是Python的一个HTML/XML解析库,可以解析HTML、XML以及各种文档。lxml同时也是Python中最快速、最灵活的解析器之一,还支持XPath和CSS选择器,并提供一些方便的API来遍历文档树、从中提取数据以及修改元素。
基于C编写,lxml的速度远超Beautiful Soup等Python库,是数据分析和Web爬虫领域不可替代的工具。
二、简单解析HTML文档
在使用lxml解析HTML文档之前,需要使用pip安装lxml库。
import requests from lxml import html url = 'https://www.baidu.com' response = requests.get(url) content = response.content tree = html.fromstring(content) print(tree)
代码中,我们使用requests库获取百度首页的HTML文档,然后使用lxml库的fromstring函数将文档转化为lxml.etree.Element对象,并打印出来。
三、XPath选择器
XPath选择器是lxml的重要功能之一,它提供了一种灵活并且高效的方式来选择HTML文档中的特定元素或者实现定位元素。
import requests from lxml import html url = 'https://www.baidu.com' response = requests.get(url) content = response.content tree = html.fromstring(content) result = tree.xpath('//title/text()') print(result)
代码中,我们使用requests获取百度首页的HTML文档,将文档转化为lxml.etree.Element对象,并使用XPath选择器提取出文档中title标签的文本内容。运行上述代码,可以得到返回结果为百度首页的标题。
四、CSS选择器
CSS选择器也是lxml支持的选择器之一,它语法简单,直接,易于学习和使用。
import requests from lxml import html url = 'https://www.baidu.com' response = requests.get(url) content = response.content tree = html.fromstring(content) result = tree.cssselect('title')[0].text print(result)
代码中,我们使用requests获取百度首页的HTML文档,将文档转化为lxml.etree.Element对象,并使用CSS选择器提取出文档中title标签的文本内容。运行上述代码,可以得到返回结果为百度首页的标题。
五、遍历文档树
在解析HTML文档时,我们通常需要遍历整个文档树,以便访问它的自己和子元素。lxml提供了一些API方便我们遍历文档树。
import requests from lxml import html url = 'https://www.baidu.com' response = requests.get(url) content = response.content tree = html.fromstring(content) for element in tree.iter(): print(element.tag)
代码中,我们使用requests获取百度首页的HTML文档,将文档转化为lxml.etree.Element对象,并遍历整个文档树,打印元素标签名。
六、修改元素
解析HTML文档后,我们还可以使用lxml库修改HTML文档中的元素,比如给文档中所有的a标签添加一个target属性。
import requests from lxml import html url = 'https://www.baidu.com' response = requests.get(url) content = response.content tree = html.fromstring(content) for element in tree.iter('a'): element.set('target', '_blank') print(html.tostring(tree))
代码中,我们使用requests获取百度首页的HTML文档,将文档转化为lxml.etree.Element对象,然后遍历所有的a标签,给它们添加一个target属性,并打印出修改后的HTML文档。
七、总结
使用lxml库可以快速、灵活地解析HTML文档,并提取其中的数据,而且还支持XPath和CSS选择器,以及遍历文档树、修改元素等功能,是数据分析和Web爬虫的利器。