本文目录一览:
如何用python把网页上的文本内容保存下来
1、了解Python如何获取网页内容。
2、导入 urllib.request模块。
3、使用urllib.request.urlopen( )获取对象。
4、urllib.request.urlopen()获取的是一个网页的http.client.HTTPResponse对象。
5、若要打印http.client.HTTPResponse对象的内容,可以继续使用read()方法。
如何利用python爬取网页内容
利用python爬取网页内容需要用scrapy(爬虫框架),但是很简单,就三步
定义item类
开发spider类
开发pipeline
想学习更深的爬虫,可以用《疯狂python讲义》
如何在网页中运行简单的python代码
如下的方法请参考:
1 、创建一个django项目使用django-admin.py startproject MyDjangoSite 参考这里
2、建立视图
from django.http import HttpResponsedef hello(request): return HttpResponse("我的第一个简单的python django项目。")
3、修改urls.py
我们为urlpatterns加上一行: (r‘^hello/$', hello), 这行被称作URLpattern,它是一个Python的元组。元组中第一个元素是模式匹配字符串(正则表达式);第二个元素是那个模式将使用的视图函数。正则表达式字符串的开头字母“r”。 它告诉Python这是个原始字符串,不需要处理里面的反斜杠(转义字符)。一般在使用正则前加入"r"是一个好的习惯
4、运行python manage.py runserver
怎样用python爬取网页
# coding=utf-8
import urllib
import re
# 百度贴吧网址:
# 根据URL获取网页HTML内容
def getHtmlContent(url):
page = urllib.urlopen(url)
return page.read()
# 从HTML中解析出所有jpg的图片的URL
# 从HTML中jpg格式为img ... src = "xxx.jpg" width='''
def getJPGs(html):
# 解析jpg图片URL的正则表达式
jpgReg = re.compile(r'img.+?src="(.+?\.jpg)"')
# 解析出jpg的URL列表
jpgs = re.findall(jpgReg, html)
return jpgs
# 用图片url下载图片 并保存成制定文件名
def downloadJPG(imgUrl, fileName):
urllib.urlretrieve(imgUrl, fileName)
# 批量下载图片,默认保存到当前目录下
def batchDownloadJPGs(imgUrls, path='../'): # path='./'
# 给图片重命名
count = 1
for url in imgUrls:
downloadJPG(url, ''.join([path, '{0}.jpg'.format(count)]))
print "下载图片第:", count, "张"
count += 1
# 封装:从百度贴吧网页下载图片
def download(url):
html = getHtmlContent(url)
jpgs = getJPGs(html)
batchDownloadJPGs(jpgs)
def main():
url = ""
download(url)
if __name__ == '__main__':
main()