本文目录一览:
- 1、如何使用python 统计网站访问量并生成报表
- 2、用Python爬取大众点评时被反爬ip被封怎么办,他总叫我滑动验证但滑动了也没有用。。。求大佬帮忙。。。
- 3、python刷微博视频播放量
- 4、python怎么能抓微信公众号文章的阅读数
- 5、关于Python界面信息自动刷新
- 6、怎么用python爬取一个网站的网页数量
如何使用python 统计网站访问量并生成报表
统计网站访问量
统计出每个IP的访问量有多少?(从日志文件中查找)
#!/usr/bin/env python
#!coding=utf-8
list = []
f = file('/tmp/1.log')
str1 = f.readlines()
f.close()
for i in str1:
ip = i.split()[0] //split()通过指定分隔符对字符串进行切片,默认为所有的空字符;split分隔后是一个列表,[0]表示取其第一个元素;
list.append(ip) //追加
list_num = set(list)
for j in list_num:
num = list.count(j)
print '%s : %s' %(j,num)
生成报表
#_*_coding:utf-8_*_
import MySQLdb
import xlwt
from datetime import datetime
def get_data(sql):
# 创建数据库连接.
conn = MySQLdb.connect(host='127.0.0.1',user='root'\
,passwd='123456',db='test',port=3306,charset='utf8')
# 创建游标
cur = conn.cursor()
# 执行查询,
cur.execute(sql)
# 由于查询语句仅会返回受影响的记录条数并不会返回数据库中实际的值,所以此处需要fetchall()来获取所有内容。
result = cur.fetchall()
#关闭游标
cur.close()
#关闭数据库连接
conn.close
# 返给结果给函数调用者。
return result
def write_data_to_excel(name,sql):
# 将sql作为参数传递调用get_data并将结果赋值给result,(result为一个嵌套元组)
result = get_data(sql)
# 实例化一个Workbook()对象(即excel文件)
wbk = xlwt.Workbook()
# 新建一个名为Sheet1的excel sheet。此处的cell_overwrite_ok =True是为了能对同一个单元格重复操作。
sheet = wbk.add_sheet('Sheet1',cell_overwrite_ok=True)
# 获取当前日期,得到一个datetime对象如:(2016, 8, 9, 23, 12, 23, 424000)
today = datetime.today()
# 将获取到的datetime对象仅取日期如:2016-8-9
today_date = datetime.date(today)
# 遍历result中的没个元素。
for i in xrange(len(result)):
#对result的每个子元素作遍历,
for j in xrange(len(result[i])):
#将每一行的每个元素按行号i,列号j,写入到excel中。
sheet.write(i,j,result[i][j])
# 以传递的name+当前日期作为excel名称保存。
wbk.save(name+str(today_date)+'.xls')
# 如果该文件不是被import,则执行下面代码。
if __name__ == '__main__':
#定义一个字典,key为对应的数据类型也用作excel命名,value为查询语句
db_dict = {'test':'select * from student'}
# 遍历字典每个元素的key和value。
for k,v in db_dict.items():
# 用字典的每个key和value调用write_data_to_excel函数。
write_data_to_excel(k,v)
用Python爬取大众点评时被反爬ip被封怎么办,他总叫我滑动验证但滑动了也没有用。。。求大佬帮忙。。。
1、放慢爬取速度,减小对于目标网站造成的压力。但是这样会减少单位时间类的爬取量。
第二种方法是通过设置IP等手段,突破反爬虫机制继续高频率爬取。网站的反爬机制会检查来访的IP地址,为了防止IP被封,这时就可以使用HTTP,来切换不同的IP爬取内容。使用代理IP简单的来讲就是让代理服务器去帮我们得到网页内容,然后再转发回我们的电脑。要选择高匿的ip,IPIDEA提供高匿稳定的IP同时更注重用户隐私的保护,保障用户的信息安全。
2、这样目标网站既不知道我们使用代理,更不会知道我们真实的IP地址。
3、建立IP池,池子尽可能的大,且不同IP均匀轮换。
如果你需要大量爬取数据,建议你使用HTTP代理IP,在IP被封掉之前或者封掉之后迅速换掉该IP,这里有个使用的技巧是循环使用,在一个IP没有被封之前,就换掉,过一会再换回来。这样就可以使用相对较少的IP进行大量访问。
python刷微博视频播放量
python刷微博视频流畅,播放量高。根据查询相关资料得知,python是5G手机,配置8GB加256GB亮黑色,双卡,1点6亿超清影像|骁龙8加旗舰芯片,AIVlog视频大师,单核1721分,多核4865分,高配置超性能,用来刷微博视频流畅,播放量高。
python怎么能抓微信公众号文章的阅读数
思路一,利用rss生成工具,将搜狗的微信搜索结果生成一个rss,然后通过rss监控这个公众号的文章是否更新。(理论上应该可行,但没试过)
思路二,自己做一个桌面浏览器,IE内核。用这个浏览器登录web微信,这个微信帐号关注你想抓取的公众号,这样就可以监控到是这些公众号是否已更新,更新后链接是什么,从而达到抓取数据的目的。(使用过,效率不高,但非常稳定)
思路三,通过修改android的微信客户端来实现(这个方法是我们曾经使用过一段时间的)
思路四,想办法越过验证直接取到链接,再通过链接取到数据。
关于Python界面信息自动刷新
from tkinter import *
import time
def updatetimer():
timer=time.strftime("%H:%M:%S")
timelabel.configure(text=timer)
timelabel.after(1000,updatetimer)
root=Tk()
timelabel=Label(root)
timelabel.pack()
timelabel.after(1000,updatetimer)
root.mainloop()
怎么用python爬取一个网站的网页数量
1. 这个要根据你的网站地址进行分析,构造网站的url,通过for循环,做统计输出,从而计算出一个网站的网页数量。
2. 由于你未给出具体网站的地址,只能给你说个流程如上。
望采纳,希望能帮到你。。。。。。