一、什么是数据解析
数据解析是指将一些结构化或半结构化数据从一种形式转换为另一种形式的过程。其中结构化数据与半结构化数据是指具有非常明显固定格式的数据,例如XML、JSON等;而非结构化数据则是指不具有固定格式的数据,例如文本、图片等。
一般来说,数据解析的目的是将源数据转换为能够被程序进一步处理的形式,或将数据以一种更易于人们所理解的形式展现出来。
Python是一种非常适合进行数据解析的语言,Python有着强大的第三方模块支持,使得解析数据变得非常简单。如:BeautifulSoup、lxml等。
二、常用的数据解析方法
1、使用正则表达式
import re
src = 'name:张三 age:20'
pattern = 'name:(?P<name>.+?)\sage:(?P<age>\d+)'
match = re.search(pattern, src)
if match:
print(match.group('name'), match.group('age'))
2、使用BeautifulSoup
import requests
from bs4 import BeautifulSoup
html = requests.get('http://www.baidu.com')
bs = BeautifulSoup(html.content, 'html.parser')
print(bs.title.string)
3、使用lxml
import requests
from lxml import etree
html = requests.get('http://www.baidu.com')
selector = etree.HTML(html.content)
title = selector.xpath('//title/text()')[0]
print(title)
三、实例:解析XML数据
我们有一个XML数据结构,如下:
<data>
<country name="Liechtenstein">
<rank>1</rank>
<year>2008</year>
<gdppc>141100</gdppc>
</country>
<country name="Singapore">
<rank>4</rank>
<year>2011</year>
<gdppc>59900</gdppc>
</country>
</data>
我们要将这个XML数据解析出来,可以使用ElementTree库来完成:
import xml.etree.ElementTree as ET
data = '''
<data>
<country name="Liechtenstein">
<rank>1</rank>
<year>2008</year>
<gdppc>141100</gdppc>
</country>
<country name="Singapore">
<rank>4</rank>
<year>2011</year>
<gdppc>59900</gdppc>
</country>
</data>
'''
root = ET.fromstring(data)
for country in root.findall('country'):
name = country.get('name')
rank = country.find('rank').text
year = country.find('year').text
gdppc = country.find('gdppc').text
print(name, rank, year, gdppc)
四、结语
数据解析是Python编程中非常重要的一个环节,Python不仅提供了多种解析数据的方式,还有很多实用的第三方库,可以为数据处理提供强有力的支持。
完整代码如下:
import xml.etree.ElementTree as ET
import re
import requests
from bs4 import BeautifulSoup
from lxml import etree
# 使用正则表达式解析数据
src = 'name:张三 age:20'
pattern = 'name:(?P<name>.+?)\sage:(?P<age>\d+)'
match = re.search(pattern, src)
if match:
print(match.group('name'), match.group('age'))
# 使用BeautifulSoup解析HTML数据
html = requests.get('http://www.baidu.com')
bs = BeautifulSoup(html.content, 'html.parser')
print(bs.title.string)
# 使用lxml解析HTML数据
html = requests.get('http://www.baidu.com')
selector = etree.HTML(html.content)
title = selector.xpath('//title/text()')[0]
print(title)
# 使用ElementTree解析XML数据
data = '''
<data>
<country name="Liechtenstein">
<rank>1</rank>
<year>2008</year>
<gdppc>141100</gdppc>
</country>
<country name="Singapore">
<rank>4</rank>
<year>2011</year>
<gdppc>59900</gdppc>
</country>
</data>
'''
root = ET.fromstring(data)
for country in root.findall('country'):
name = country.get('name')
rank = country.find('rank').text
year = country.find('year').text
gdppc = country.find('gdppc').text
print(name, rank, year, gdppc)