本文目录一览:
python怎样将网页内容解析成DOM对象
可以使用Python自带的HTMLParser模块解析HTML文档:
HTMLParser的核心模块是org.htmlparser.Parser类,这个类实际完成了对于HTML页面的分析工作。这个类有下面几个构造函数:
public Parser ();
public Parser (Lexer lexer, ParserFeedback fb);
public Parser (URLConnection connection, ParserFeedback fb) throws ParserException;
public Parser (String resource, ParserFeedback feedback) throws ParserException;
public Parser (String resource) throws ParserException;
public Parser (Lexer lexer);
public Parser (URLConnection connection) throws ParserException;
和一个静态类public static Parser createParser (String html, String charset);
python 生成dom实力问题
一般来说无法正常生成dom都应该是XML文件本身不符合规范的问题。
也许是编码,也许是其他原因。
1.可以试着用IE打开d:\\b.xml文件,看是否能够解析成正常的XML文件。
2.其次可以在网上找些标准的XML文件替换下d:\\b.xml,看dom能否被生成。
(1)如果可以,比较两个文件的差别就应该知道是什么问题了
(2)如果也不行的话,那就只可能是你程序其他地方出错了。(我认为程序其他地方出错可能性较小。
自己也是一知半解,希望能够起到点作用。
python DOM有什么用
DOM介绍
(1)什么是DOM
·DOM:文档对象模型。DOM 为文档提供了结构化表示,并定义了如何通过脚本来访问文档结构。目的其实就是为了能让js操作html元素而制定的一个规范。
·DOM就是由节点组成的。
相关推荐:《Python教程》
(2)解析过程
·HTML加载完毕,渲染引擎会在内存中把HTML文档,生成一个DOM树,getElementById是获取内中DOM上的元素节点。然后操作的时候修改的是该元素的属性。
·DOM树(一切都是节点)
DOM的数据结构如下:
上图可知,在HTML当中,一切都是节点:(非常重要)
·元素节点:HMTL标签。
·文本节点:标签中的文字(比如标签之间的空格、换行)
·属性节点::标签的属性。
整个html文档就是一个文档节点。所有的节点都是Object。
(3)DOM可以做什么
·找对象(元素节点)
·设置元素的属性值
·设置元素的样式
·动态创建和删除元素
·事件的触发响应:事件源、事件、事件的驱动程序