用python解析html（python求解析解）

本文目录一览：

1、python HTML解析之 - lxml
2、Python网页解析库：用requests-html爬取网页
3、python如何解析html中的转义字符
4、怎么用python解析html
5、Python html 模块简介

python HTML解析之 - lxml

lxml是处理XML和HTML的python语言，解析的时候，自动处理各种编码问题。而且它天生支持 XPath 1.0、XSLT 1.0、定制元素类。

安装：

HTML 实例

test, test.html指上述实例

获取 a 的所有标签，这种html内容有多种写法，可以直接得到了4个元素。

按照（2）中的方法，再加上 /@href ，可以直接得到属性值。

或者得到（2）中的结果，一一轮询。

更多表达式见 python xpath的学习

参考：

用python解析html（python求解析解）

Python网页解析库：用requests-html爬取网页

Python 中可以进行网页解析的库有很多，常见的有 BeautifulSoup 和 lxml 等。在网上玩爬虫的文章通常都是介绍 BeautifulSoup 这个库，我平常也是常用这个库，最近用 Xpath 用得比较多，使用 BeautifulSoup 就不大习惯，很久之前就知道 Reitz 大神出了一个叫 Requests-HTML 的库，一直没有兴趣看，这回可算歹着机会用一下了。

使用 pip install requests-html 安装，上手和 Reitz 的其他库一样，轻松简单：

这个库是在 requests 库上实现的，r 得到的结果是 Response 对象下面的一个子类，多个一个 html 的属性。所以 requests 库的响应对象可以进行什么操作，这个 r 也都可以。如果需要解析网页，直接获取响应对象的 html 属性：

不得不膜拜 Reitz 大神太会组装技术了。实际上 HTMLSession 是继承自 requests.Session 这个核心类，然后将 requests.Session 类里的 requests 方法改写，返回自己的一个 HTMLResponse 对象，这个类又是继承自 requests.Response,只是多加了一个 _from_response 的方法来构造实例：

之后在 HTMLResponse 里定义属性方法 html，就可以通过 html 属性访问了,实现也就是组装 PyQuery 来干。核心的解析类也大多是使用 PyQuery 和 lxml 来做解析，简化了名称，挺讨巧的。

元素定位可以选择两种方式：

方法名非常简单，符合 Python 优雅的风格，这里不妨对这两种方式简单的说明：

定位到元素以后势必要获取元素里面的内容和属性相关数据，获取文本：

获取元素的属性：

还可以通过模式来匹配对应的内容：

这个功能看起来比较鸡肋，可以深入研究优化一下，说不定能在 github 上混个提交。

除了一些基础操作，这个库还提供了一些人性化的操作。比如一键获取网页的所有超链接，这对于整站爬虫应该是个福音，URL 管理比较方便：

内容页面通常都是分页的，一次抓取不了太多，这个库可以获取分页信息：

结果如下：

通过迭代器实现了智能发现分页，这个迭代器里面会用一个叫 _next 的方法，贴一段源码感受下：

通过查找 a 标签里面是否含有指定的文本来判断是不是有下一页，通常我们的下一页都会通过下一页或者加载更多来引导，他就是利用这个标志来进行判断。默认的以列表形式存在全局： ['next','more','older'] 。我个人认为这种方式非常不灵活，几乎没有扩展性。感兴趣的可以往 github 上提交代码优化。

也许是考虑到了现在 js 的一些异步加载，这个库支持 js 运行时，官方说明如下：

使用非常简单，直接调用以下方法：

第一次使用的时候会下载 Chromium，不过国内你懂的，自己想办法去下吧，就不要等它自己下载了。render 函数可以使用 js 脚本来操作页面，滚动操作单独做了参数。这对于上拉加载等新式页面是非常友好的。

python如何解析html中的转义字符

用python写个html的转义字符转换的函数，然后调用这个函数进行转义字符处理即可。

html中的转义字符并不多。

html转义字符对照表

html常规转义字符

怎么用python解析html

现在用起来比较方便的有两种：

1. pyquery (类似Jquery语法，对于js熟悉的人，用这个会比较上手)

2. beatifulsoup:这个功能比较强大，用起来也很方便，目前正在整理笔记中，其中一个亮点就是：可以使用正则来解析有规律的html标签内容。

还有一个主要的问题：爬取网页的时候，需要使用http代理。因为有的网站有了方爬取的策略，这部分也在整理中，后续会整理发布。

Python html 模块简介

比如：

比如，数学符号，，可以直接获得：

escape 将特殊字符＆，和替换为HTML安全序列。如果可选的 flags quote 为 True （默认值），则还会翻译引号字符，包括双引号（ " ）和单引号（ ' ）字符。

将字符串 s 中的所有命名和数字字符引用 (例如 , , ) 转换为相应的 Unicode 字符。此函数使用 HTML 5 标准为有效和无效字符引用定义的规则，以及 HTML 5 命名字符引用列表。

这个模块定义了一个 HTMLParser 类，为 HTML（超文本标记语言）和 XHTML 文本文件解析提供基础。

class html.parser.HTMLParser(*, convert_charrefs=True) 创建一个能解析无效标记的解析器实例。查找标签（tags）和其他标记（markup）并调用 handler 函数。

用法：

通过调用 self.handle_starttag 处理开始标签，或通过调用 self.handle_startendtag 处理结束标签。标签之间的数据通过以 data 为参数调用 self.handle_data 从解析器传递到派生类（数据可以分成任意块）。如果 convert_charrefs 为 True ，则将字符引用自动转换为相应的 Unicode 字符（并且 self.handle_data 不再拆分成块），否则通过调用带有字符串的 self.handle_entityref 或 self.handle_charref 来传递它们以分别包含命名或数字引用作为参数。如果 convert_charrefs 为 True (默认值)，则所有字符引用( script / style 元素中的除外)都会自动转换为相应的 Unicode 字符。

一个 HTMLParser 类的实例用来接受 HTML 数据，并在标记开始、标记结束、文本、注释和其他元素标记出现的时候调用对应的方法。要实现具体的行为，请使用 HTMLParser 的子类并重载其方法。

这个解析器不检查结束标记是否与开始标记匹配，也不会因外层元素完毕而隐式关闭了的元素引发结束标记处理。

下面是简单的 HTML 解析器的一个基本示例，使用 HTMLParser 类，当遇到开始标记、结束标记以及数据的时候将内容打印出来。

输出：

HTMLParser.reset() 重置实例。丢失所有未处理的数据。在实例化阶段被隐式调用。

HTMLParser.feed(data) 填充一些文本到解析器中。如果包含完整的元素，则被处理；如果数据不完整，将被缓冲直到更多的数据被填充，或者 close() 被调用。 data 必须为 str 类型。

HTMLParser.close() 如同后面跟着一个文件结束标记一样，强制处理所有缓冲数据。这个方法能被派生类重新定义，用于在输入的末尾定义附加处理，但是重定义的版本应当始终调用基类 HTMLParser 的 close() 方法。

HTMLParser.getpos() 返回当前行号和偏移值。

HTMLParser.get_starttag_text() 返回最近打开的开始标记中的文本。结构化处理时通常应该不需要这个，但在处理“已部署”的 HTML 或是在以最小改变来重新生成输入时可能会有用处（例如可以保留属性间的空格等）。

下列方法将在遇到数据或者标记元素的时候被调用。他们需要在子类中重载。基类的实现中没有任何实际操作（除了 handle_startendtag() ）：

HTMLParser.handle_starttag 这个方法在标签开始的时候被调用（例如： div id="main" ）。 tag 参数是小写的标签名。 attrs 参数是一个 (name, value) 形式的列表，包含了所有在标记的括号中找到的属性。 name 转换为小写， value 的引号被去除，字符和实体引用都会被替换。比如，对于标签 a href="" ，这个方法将以下列形式被调用 handle_starttag('a', [('href', '')]) 。 html.entities 中的所有实体引用，会被替换为属性值。

HTMLParser.handle_endtag(tag) 此方法被用来处理元素的结束标记（例如： /div ）。 tag 参数是小写的标签名。

HTMLParser.handle_startendtag(tag, attrs) 类似于 handle_starttag() , 只是在解析器遇到 XHTML 样式的空标记时被调用（ tag ... / ）。这个方法能被需要这种特殊词法信息的子类重载；默认实现仅简单调用 handle_starttag() 和 handle_endtag() 。

HTMLParser.handle_data(data) 这个方法被用来处理任意数据（例如：文本节点和 script.../script 以及 style.../style 中的内容）。

HTMLParser.handle_entityref(name) 这个方法被用于处理 name; 形式的命名字符引用（例如），其中 name 是通用的实体引用（例如： 'gt' ）。如果 convert_charrefs 为 True，该方法永远不会被调用。

HTMLParser.handle_charref(name) 这个方法被用来处理 NNN; 和 NNN; 形式的十进制和十六进制字符引用。例如，等效的十进制形式为，而十六进制形式为；在这种情况下，方法将收到 '62' 或 'x3E' 。如果 convert_charrefs 为 True ，则该方法永远不会被调用。

HTMLParser.handle_comment(data) 这个方法在遇到注释的时候被调用（例如：）。例如，这个注释会用 ' comment ' 作为参数调用此方法。

Internet Explorer 条件注释（condcoms）的内容也被发送到这个方法，因此，对于 ``，这个方法将接收到 '[if IE 9]IE9-specific content![endif]' 。

HTMLParser.handle_decl(decl) 这个方法用来处理 HTML doctype 申明（例如 !DOCTYPE html ）。 decl 形参为 !... 标记中的所有内容（例如： 'DOCTYPE html' ）。

HTMLParser.handle_pi(data) 此方法在遇到处理指令的时候被调用。 data 形参将包含整个处理指令。例如，对于处理指令 ?proc color='red' ，这个方法将以 handle_pi("proc color='red'") 形式被调用。它旨在被派生类重载；基类实现中无任何实际操作。

注解： HTMLParser 类使用 SGML 语法规则处理指令。使用 '?' 结尾的 XHTML 处理指令将导致 '?' 包含在 data 中。

HTMLParser.unknown_decl(data) 当解析器读到无法识别的声明时，此方法被调用。 data 形参为 ![...] 标记中的所有内容。某些时候对派生类的重载很有用。基类实现中无任何实际操作。

因此，我们可以如此定义：

下面介绍如何解析 HTML 文档。

解析一个文档类型声明：

解析一个具有一些属性和标题的元素：

script 和 style 元素中的内容原样返回，无需进一步解析：

解析注释：

解析命名或数字形式的字符引用，并把他们转换到正确的字符（注意：这 3 种转义都是 '' ）：

填充不完整的块给 feed() 执行， handle_data() 可能会多次调用（除非 convert_charrefs 被设置为 True ）：

解析无效的 HTML (例如：未引用的属性）也能正常运行：

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

用python解析html（python求解析解）

本文目录一览：

python HTML解析之 - lxml

Python网页解析库：用requests-html爬取网页

python如何解析html中的转义字符

怎么用python解析html

Python html 模块简介

用python解析html（python求解析解）

python解析cdata（python解析html标签）

python笔记二（2python）

python学习之笔记（python的笔记）

Python HTML解析

python技巧笔记（python自学笔记）

python解析慢,python速度慢怎么解决

Python解析HTML

python库的解析,python里的库

python的用法笔记本（笔记本学python）

我的python笔记06（Python）

python数据分析学习笔记1（python数据分析基础和利

python方法笔记,python基础教程笔记

python学习笔记一之,python入门笔记

Python XML解析详解

包含python使用笔记24的词条

阿平的python小笔记吖,python 阿里巴巴

python基础学习整理笔记,Python课堂笔记

使用Python解析器添加HTML标题

python第12天笔记（21天学会python）

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

用python解析html（python求解析解）

本文目录一览：

python HTML解析之 - lxml

Python网页解析库：用requests-html爬取网页

python如何解析html中的转义字符

怎么用python解析html

Python html 模块简介

用python解析html（python求解析解）

python解析cdata（python解析html标签）

python笔记二（2python）

python学习之笔记（python的笔记）

Python HTML解析

python技巧笔记（python自学笔记）

python解析慢,python速度慢怎么解决

Python解析HTML

python库的解析,python里的库

python的用法笔记本（笔记本学python）

我的python笔记06（Python）

python数据分析学习笔记1（python数据分析基础和利

python方法笔记,python基础教程笔记

python学习笔记一之,python入门笔记

Python XML解析详解

包含python使用笔记24的词条

阿平的python小笔记吖,python 阿里巴巴

python基础学习整理笔记,Python课堂笔记

使用Python解析器添加HTML标题

python第12天笔记（21天学会python）

人机检测，请谅解