使用python爬取数据的简单介绍

本文目录一览：

1、怎样用python爬取疫情数据
2、python爬虫可以做什么
3、python爬虫---爬取LOL云顶之弈数据

怎样用python爬取疫情数据

import requests

from bs4 import BeautifulSoup

import re

import json

# 1.发送请求，获取疫情首页（数据来源于丁香园）

response = requests.get('')

home_page = response.content.decode()

# 2.从疫情首页提取最近一日数据

soup = BeautifulSoup(home_page, 'lxml')

script = soup.find(id='getAreaStat')

text = script.string

# 3.提取数据获取json格式数据

json_str = re.findall(r'\[.+\]', text)[0]

# 4.把json格式转换为python类型

last_day_corona_virus = json.loads(json_str)

# 5.以json格式保存最近一日数据

with open('data/last_day_coronavirus.json', 'w') as fp:

json.dump(last_day_corona_virus, fp, ensure_ascii=False)

使用python爬取数据的简单介绍

python爬虫可以做什么

1、收集数据

Python爬虫程序可用于收集数据，这是最直接和最常用的方法。由于爬虫程序是一个程序，程序运行得非常快，不会因为重复的事情而感到疲倦，因此使用爬虫程序获取大量数据变得非常简单、快速。

2、数据储存

Python爬虫可以将从各个网站收集的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。注意：搜索引擎蜘蛛在抓取页面时，也做一定的重复内容检测，一旦遇到访问权限很低的网站上有大量抄袭、采集或者复制的内容，很可能就不再爬行。

3、网页预处理

Python爬虫可以将爬虫抓取回来的页面，进行各种步骤的预处理。比如提取文字、中文分词、消除噪音、索引处理、特殊文字处理等。

4、提供检索服务、网站排名

Python爬虫在对信息进行组织和处理之后，为用户提供关键字检索服务，将用户检索相关的信息展示给用户。同时可以根据页面的PageRank

值来进行网站排名，这样Rank值高的网站在搜索结果中会排名较前，当然也可以直接使用Money购买搜索引擎网站排名。

5、科学研究

在线人类行为、在线社群演化、人类动力学研究、计量社会学、复杂网络、数据挖掘等领域的实证研究都需要大量数据，Python爬虫是收集相关数据的利器。

python爬虫---爬取LOL云顶之弈数据

本来是想爬取之后作最佳羁绊组合推算，但是遇到知识点无法消化（知识图谱），所以暂时先不组合了，实力有限

库的安装

1.requests #爬取棋子数据

2.json #棋子数据为js动态，需使用json解析

3.BeautifulSoup

实战前先新建个lol文件夹作为工作目录，并创建子目录data，用于存放数据。

1.爬取数据，新建个py文件，用于爬取云顶数据，命名为data.py

1.1定义个req函数，方便读取。//需设定编码格式，否则会出现乱码

def Re_data(url):

re = requests.get(url)

re.encoding = 'gbk'

data = json.loads(re.text)

return data['data']

1.2定义个Get函数，用于读取数据并使用保存函数进行保存数据，保存格式为json。

def Get_data():

# 获取数据并保存至data目录

base_url = ''

chess = Re_data(base_url + 'chess.js')

race = Re_data(base_url + 'race.js')

job = Re_data(base_url + 'job.js')

equip = Re_data(base_url + 'equip.js')

Save_data(chess,race,job,equip)

1.3定义save函数实现读取的数据进行文件保存，保存目录为工作目录下的data文件夹。

def Save_data(t_chess,t_race,t_job,t_equip):

with open('./data/chess.json','w') as f:

json.dump(t_chess,f,indent='\t')

with open('./data/race.json','w') as f:

json.dump(t_race,f,indent='\t')

with open('./data/job.json','w') as f:

json.dump(t_job,f,indent='\t')

with open('./data/equip.json','w') as f:

json.dump(t_equip,f,indent='\t')

1.4定义主函数main跑起来

if __name__ == '__main__':

start = time.time()

Get_data()

print('运行时间：' + str(time.time() - start) + '秒')

至此，数据爬取完成。

2.种族和职业进行组合。

2.1未完成 //未完成，使用穷举方法进行组合会出现内存不够导致组合失败（for循环嵌套导致数组内存超限）

//待学习，使用知识图谱建立组合优选，可参考：

期间遇到的问题：

1.爬取棋子数据时为动态js加载，需通过json模块的loads方法获取

2.3层for循环嵌套数据量大，导致计算失败，需优化计算方法。

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

使用python爬取数据的简单介绍

本文目录一览：

怎样用python爬取疫情数据

python爬虫可以做什么

python爬虫---爬取LOL云顶之弈数据

python使用笔记23的简单介绍

python使用笔记006的简单介绍

使用python爬取数据的简单介绍

使用python进行网页爬取的简单介绍

python爬取页面时的简单介绍

初识python爬虫二的简单介绍

重拾python笔记三的简单介绍

使用Python爬取网页数据

python学习之笔记（python的笔记）

数据分析笔试python必会三的简单介绍

Python爬取网页数据的方法

我的python笔记06（Python）

使用Python进行数据爬取

python爬取网站数据步骤,Python爬取网站

包含python使用笔记24的词条

使用Python爬取互联网数据

python调用新浪api爬虫的简单介绍

简单粗暴的实现python的简单介绍

python笔记二（2python）

Python爬取数据教程

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

使用python爬取数据的简单介绍

本文目录一览：

怎样用python爬取疫情数据

python爬虫可以做什么

python爬虫---爬取LOL云顶之弈数据

python使用笔记23的简单介绍

python使用笔记006的简单介绍

使用python爬取数据的简单介绍

使用python进行网页爬取的简单介绍

python爬取页面时的简单介绍

初识python爬虫二的简单介绍

重拾python笔记三的简单介绍

使用Python爬取网页数据

python学习之笔记（python的笔记）

数据分析笔试python必会三的简单介绍

Python爬取网页数据的方法

我的python笔记06（Python）

使用Python进行数据爬取

python爬取网站数据步骤,Python爬取网站

包含python使用笔记24的词条

使用Python爬取互联网数据

python调用新浪api爬虫的简单介绍

简单粗暴的实现python的简单介绍

python笔记二（2python）

Python爬取数据教程

人机检测，请谅解