本文目录一览：

python如何读取网页中的数据
如何用python抓取网页上的数据
如何用python抓取这个网页的内容？

python如何读取网页中的数据

用Beautiful Soup这类解析模块： Beautiful Soup 是用Python写的一个HTML/XML的解析器，它可以很好的处理不规范标记并生成剖析树(parse tree)；它提供简单又常用的导航(navigating)，搜索以及修改剖析树的操作；用urllib或者urllib2(推荐)将页面的html代码下载后，用beautifulsoup解析该html；然后用beautifulsoup的查找模块或者正则匹配将你想获得的内容找出来，就可以进行相关处理了，例如：

from BeautifulSoup import BeautifulSoup
html = 'htmlheadtitletest/title/headbodyptest body/p/body/html'
soup = BeautifulSoup(html)
soup.contents[0].name
#  u'html'
soup.comtents[0].contents[0].name
#  u'head'
head = soup.comtents[0].contents[0]
head.parent.name
#  u'html'
head.next
#  u'titletest/title'

如何用python抓取网页上的数据

使用内置的包来抓取，就是在模仿浏览器访问页面，再把页面的数据给解析出来，也可以看做是一次请求。

如何用python抓取这个网页的内容？

Python实现常规的静态网页抓取时，往往是用urllib2来获取整个HTML页面，然后从HTML文件中逐字查找对应的关键字。如下所示：

import urllib2
url="网址"
up=urllib2.urlopen(url)#打开目标页面，存入变量up
cont=up.read()#从up中读入该HTML文件
key1='a href="http'#设置关键字1
key2="target"#设置关键字2
pa=cont.find(key1)#找出关键字1的位置
pt=cont.find(key2,pa)#找出关键字2的位置(从字1后面开始查找)
urlx=cont[pa:pt]#得到关键字1与关键字2之间的内容(即想要的数据)
print urlx

python网页提取数据（python怎么抓取网页数据）

本文目录一览：

python如何读取网页中的数据

如何用python抓取网页上的数据

如何用python抓取这个网页的内容？