您的位置:

python该怎么处理,python该怎么处理数据

本文目录一览:

Python爬虫数据应该怎么处理

一、首先理解下面几个函数

设置变量 length()函数 char_length() replace() 函数 max() 函数

1.1、设置变量 set @变量名=值

set @address='中国-山东省-聊城市-莘县';select @address

1.2 、length()函数 char_length()函数区别

select length('a')

,char_length('a')

,length('中')

,char_length('中')

1.3、 replace() 函数 和length()函数组合

set @address='中国-山东省-聊城市-莘县';select @address

,replace(@address,'-','') as address_1

,length(@address) as len_add1

,length(replace(@address,'-','')) as len_add2

,length(@address)-length(replace(@address,'-','')) as _count

etl清洗字段时候有明显分割符的如何确定新的数据表增加几个分割出的字段

计算出com_industry中最多有几个 - 符 以便确定增加几个字段 最大值+1 为可以拆分成的字段数 此表为3 因此可以拆分出4个行业字段 也就是4个行业等级

select max(length(com_industry)-length(replace(com_industry,'-',''))) as _max_count

from etl1_socom_data

1.4、设置变量 substring_index()字符串截取函数用法

set @address='中国-山东省-聊城市-莘县';

select

substring_index(@address,'-',1) as china,

substring_index(substring_index(@address,'-',2),'-',-1) as province,

substring_index(substring_index(@address,'-',3),'-',-1) as city,

substring_index(@address,'-',-1) as district

1.5、条件判断函数 case when

case when then when then else 值 end as 字段名

select case when 89101 then '大于' else '小于' end as betl1_socom_data

二、kettle转换etl1清洗

首先建表 步骤在视频里

字段索引 没有提 索引算法建议用BTREE算法增强查询效率

2.1.kettle文件名:trans_etl1_socom_data

2.2.包括控件:表输入表输出

2.3.数据流方向:s_socom_dataetl1_socom_data

kettle转换1截图

2.4、表输入2.4、SQL脚本 初步清洗com_district和com_industry字段

select a.*,case when com_district like '%业' or com_district like '%织' or com_district like '%育' then null else com_district end as com_district1

,case when com_district like '%业' or com_district like '%织' or com_district like '%育' then concat(com_district,'-',com_industry) else com_industry end as com_industry_total

,replace(com_addr,'地 址:','') as com_addr1

,replace(com_phone,'电 话:','') as com_phone1

,replace(com_fax,'传 真:','') as com_fax1

,replace(com_mobile,'手机:','') as com_mobile1

,replace(com_url,'网址:','') as com_url1

,replace(com_email,'邮箱:','') as com_email1

,replace(com_contactor,'联系人:','') as com_contactor1

,replace(com_emploies_nums,'公司人数:','') as com_emploies_nums1

,replace(com_reg_capital,'注册资金:万','') as com_reg_capital1

,replace(com_type,'经济类型:','') as com_type1

,replace(com_product,'公司产品:','') as com_product1

,replace(com_desc,'公司简介:','') as com_desc1from s_socom_data as a

2.5、表输出

表输出设置注意事项

注意事项:

① 涉及爬虫增量操作 不要勾选裁剪表选项

②数据连接问题 选择表输出中表所在的数据库

③字段映射问题 确保数据流中的字段和物理表的字段数量一致 对应一致

三、kettle转换etl2清洗

首先建表增加了4个字段 演示步骤在视频里

字段索引 没有提 索引算法建议用BTREE算法增强查询效率

主要针对etl1 生成的新的com_industry进行字段拆分 清洗

3.1.kettle文件名:trans_etl2_socom_data

3.2.包括控件:表输入表输出

3.3.数据流方向:etl1_socom_dataetl2_socom_data

注意事项:

① 涉及爬虫增量操作 不要勾选裁剪表选项

②数据连接问题 选择表输出中表所在的数据库

③字段映射问题 确保数据流中的字段和物理表的字段数量一致 对应一致

kettle转换2截图

3.4、SQL脚本 对com_industry进行拆分 完成所有字段清洗 注册资金字段时间关系没有进行细致拆解 调整代码即可

select a.*,case

#行业为''的值 置为空when length(com_industry)=0 then null

#其他的取第一个-分隔符之前else substring_index(com_industry,'-',1)  end as com_industry1,case

when length(com_industry)-length(replace(com_industry,'-',''))=0 then null

#'交通运输、仓储和邮政业-' 这种值 行业2 也置为nullwhen length(com_industry)-length(replace(com_industry,'-',''))=1 and length(substring_index(com_industry,'-',-1))=0 then nullwhen length(com_industry)-length(replace(com_industry,'-',''))=1  then substring_index(com_industry,'-',-1)else substring_index(substring_index(com_industry,'-',2),'-',-1)end as com_industry2,case

when length(com_industry)-length(replace(com_industry,'-',''))=1 then nullwhen length(com_industry)-length(replace(com_industry,'-',''))=2 then  substring_index(com_industry,'-',-1)else substring_index(substring_index(com_industry,'-',3),'-',-1)end as com_industry3,case

when length(com_industry)-length(replace(com_industry,'-',''))=2 then nullelse substring_index(com_industry,'-',-1)end as com_industry4from etl1_socom_data as a

四、清洗效果质量检查

4.1爬虫数据源数据和网站数据是否相符

如果本身工作是爬虫和数据处理在一起处理,抓取的时候其实已经判断,此步骤可以省略,如果对接上游爬虫同事,这一步首先判断,不然清洗也是无用功,一般都要求爬虫同事存储请求的url便于后面数据处理查看数据质量

4.2计算爬虫数据源和各etl清洗数据表数据量

注:SQL脚本中没有经过聚合过滤 3个表数据量应相等

4.2.1、sql查询 下面表我是在同一数据库中 如果不在同一数据库 from 后面应加上表所在的数据库名称

不推荐数据量大的时候使用

select count(1) from s_socom_dataunion all

select count(1) from etl1_socom_dataunion all

select count(1) from etl2_socom_data

4.2.2 根据 kettle转换执行完毕以后 表输出总量对比

kettle表输出总数据量

4.3查看etl清洗质量

确保前两个步骤已经无误,数据处理负责的etl清洗工作自查开始 针对数据源清洗的字段 写脚本检查 socom网站主要是对地区 和行业进行了清洗 对其他字段做了替换多余字段处理 ,因此采取脚本检查,

找到page_url和网站数据进行核查

where里面这样写便于查看某个字段的清洗情况

select *

from etl2_socom_data

where com_district is null and length(com_industry)-length(replace(com_industry,'-',''))=3

此页面数据和etl2_socom_data表最终清洗数据对比

网站页面数据

etl2_socom_data表数据

清洗工作完成。

Python 运行报错NameError出现原因,怎么解决

python程序,报错NameError: name XX is not defined 是没有声明造成的,需要在文件的前两行进行声明编码,声明方法为:

1、写一个python文件,文件中有中文字符,且未声明编码。

2、当程序文件中,存在中文字符时候,文件未声明编码格式就会出现报错信息:  File "encode.py", line 1SyntaxError:

Non-ASCII character '\xe7' in file encode.py on line 1, but no encoding

declared; see //..python.../dev/peps/pep-0263/ for details for details。

3、根据错误提示,在python官网得到如下帮助信息。

4、所以,按照帮助文档的提示以及例子,在Python文件中加入一个编码声明。

5、保存之后,再次运行,运行成功。

Python应该怎么学?

学习python主要有自学和报班学习两种方式。

具体学的顺序如下:

①Python软件开发基础

掌握计算机的构成和工作原理

会使用Linux常用工具

熟练使用Docker的基本命令

建立Python开发环境,并使用print输出

使用Python完成字符串的各种操作

使用Python re模块进行程序设计

使用Python创建文件、访问、删除文件

掌握import 语句、From…import 语句、From…import* 语句、方法的引用、Python中的包

②Python软件开发进阶

能够使用Python面向对象方法开发软件

能够自己建立数据库,表,并进行基本数据库操作

掌握非关系数据库MongoDB的使用,掌握Redis开发

能够独立完成TCP/UDP服务端客户端软件开发,能够实现ftp、http服务器,开发邮件软件

能开发多进程、多线程软件

③Python全栈式WEB工程师

能够独立完成后端软件开发,深入理解Python开发后端的精髓

能够独立完成前端软件开发,并和后端结合,熟练掌握使用Python进行全站Web开发的技巧

④Python多领域开发

能够使用Python熟练编写爬虫软件

能够熟练使用Python库进行数据分析

招聘网站Python招聘职位数据爬取分析

掌握使用Python开源人工智能框架进行人工智能软件开发、语音识别、人脸识别

掌握基本设计模式、常用算法

掌握软件工程、项目管理、项目文档、软件测试调优的基本方法

Python目前是比较火,学习之后可以从事软件开发、数据挖掘等工作,发展前景非常好,普通人也可以学习。

想要系统学习,你可以考察对比一下开设有IT专业的热门学校,好的学校拥有根据当下企业需求自主研发课程的能力,建议实地考察对比一下。

祝你学有所成,望采纳。

请点击输入图片描述

如何用python处理数据

在python项目中,新建python文件,并依次导入xlrd和xlwt接着调用open_workbook()方法,打开一个excel文件

python运行错误怎么办?

一、python的错误处理:

在程序运行的过程中,如果发生了错误,可以事先约定返回一个错误代码,这样,就可以知道是否有错以及出错的原因。

在操作系统提供的调用中,返回错误码非常常见。比如打开文件的函数open(),成功时返回文件的描述符(就是一个整数),出错时返回-1用错误码来表示是否出错十分不便,因为函数本身应该返回的正常结果和错误码混在一起,造成调用者必须大量的代码来判断是否出错:def foo():

r = somefunction()    if r == (-1):        return (-1)    return rdef bar():

r = foo()    if r == (-1):        print("Error")    else:        pass一旦出错,还要一级一级上报,直到某个函数可以处理该错误(比如,给用户输出一个错误信息)

所以,高级语言通常都内置了一套try...except...finally...的错误处理机制,python也不例外。try

让我们用一个例子来看看try的机制try:    print("try....")

r = 10 / 0    print("result", r)except ZeroDivisionError as e:    print("except:", e)finally:    print("finally...")print("END....")

当我们认为某些代码可能会出错时,就可以用try来运行这段代码,如果执行出错,则后续代码不会继续执行

而是直接跳转至错误处理代码,即except语句块

执行完except后,如果有finally语句块,则执行finally语句块,至此,执行完毕。

上面的代码在计算10 / 0时 会产生一个除法运算错误:try....except: division by zerofinally...

END....从输出可以看到,当错误发生时,后续语句print("result:", r)不会被执行,except由于捕获到ZeroDivisionError因此被执行。

最后,finally语句被执行。然后,程序继续按照流程往下走。

如果把除数0 变成2,则执行结果如下try....

result 5.0finally...

END....由于没有错误发生,所以except语句块不会被执行,但是finally如果有则一定会被执行,当然finally也可以没有

你还可以猜测,错误应该有很多种类,日过发生了不同类型的错误,应该由不同的except语句块处理。

没错,可以有多个except来捕获不同类型的错误:try:    print("try.....")

r = 10 / int("a")    print("result:", r)except ValueError as e:    print("ValueError:", e)except ZeroDivisionError as e:    print("ZeroDivisionError:", e)finally:    print("finally...")print("END...")

int()函数可能会抛出ValueError,所以我们用一个except捕获ValueError,用另一个except捕获ZeroDivisionError

此外,如果没有错误发生,可以再except语句块后面加一个else,当没有错误发生时,会自动执行else语句。try:    print("try...")

r = 10 / int("2")    print("result:", r)except ValueError as e:    print("ValueError:", e)except ZeroDivisionError as e:    print("ZeroDivisionError:", e)else:    print("No error!")finally:    print("finally...")print("END")

python的错误其实也是class,所有的错误类型都继承自BaseException,

所以在使用except时需要注意的是,它不但捕获该类型的错误,还把其子类也“一网打尽”。

比如:try:

foo()except ValueError as e:    print("ValueError")except UnicodeError as e:    print("UnicodeError")

第二个except永远也捕获不到UnicodeError, 因为UnicodeError是ValueError的子类

如果有,也是被第一个except给捕获了。

python所有的错误都是BaseException类派生的。

所有常见的错误类型和继承关系看这里:

使用try...exccept捕获错误还有一个巨大的好处,就是可以跨越多层调用,比如函数main()调用foo()

foo()调用bar(),结果bar()出错了,这时,只要main()捕获到了,就可以处理:def foo(s):    return 10 / int(s)def bar(s):    return foo(s) * 2def main():    try:

bar("0")    except Exception as e:        print("Error:", e)    finally:        print("finally...")

也就是说,不需要在每个可能出错的地方去捕获异常,只要在合适的层次去捕获就可以了。

这样一来,就大大减少了写 try...except...finally的麻烦。

二、调用堆栈

如果错误没有被捕获,他就会一直往上抛,最后被python解释器捕获,打印一个错误信息,然后程序退出。def foo(s):    return 10 / int(s)def bar(s):    return foo(s) * 2def main():

bar("0")

main()

执行结果为:

Traceback (most recent call last):

File "C:/Python36/test.py", line 10, in module

main()

File "C:/Python36/test.py", line 8, in main

bar("0")

File "C:/Python36/test.py", line 5, in bar    return foo(s) * 2

File "C:/Python36/test.py", line 2, in foo    return 10 / int(s)

ZeroDivisionError: division by zero

出错并不可怕,可怕的时不知道哪里出错了。解读错误信息时定位错误的关键。

我们从上往下可以看到整个错误的调用函数链。

错误第一行:

Traceback (most recent call last):

这告诉我们的是错误的跟踪信息。

File "C:/Python36/test.py", line 10, in module main()

说明调用main()出错了,在代码文件test.py中第10行,但是原因是第8行:

File"C:/Python36/test.py", line8, in main

bar("0")

调用bar("0")出错了,在代码文件test.py中第8行,但原因是第5行:

File"C:/Python36/test.py", line5, in barreturn foo(s) * 2调用return foo(s) * 2时出错了,在test.py中第5行,但原因是第2行

File "C:/Python36/test.py", line 2, in foo    return 10 / int(s)

ZeroDivisionError: division by zero

这时我们找到了源头,原来在第2行调用return 10 / int(s)出错了,错误为ZeroDivisionError

三、记录错误

如果不捕获错误,自然可以让python解释器来打印出错误堆栈,但是程序也被结束了。

既然我们能捕获错误,就可以把错误堆栈打印出来,然后分析错误原因,同时,让程序继续执行下去。

python内置的logging模块可以非常容易地记录错误信息:import loggingdef foo(s):    return 10 / int(s)def bar(s):    return foo(s) * 2def main():    try:

bar("0")    except Exception as e:

logging.exception(e)

main()print("END")

输出结果为:

ERROR:root:division by zero

Traceback (most recent call last):

File "C:/Python36/test.py", line 12, in main

bar("0")

File "C:/Python36/test.py", line 8, in bar    return foo(s) * 2

File "C:/Python36/test.py", line 5, in foo    return 10 / int(s)

ZeroDivisionError: division by zero

END

同样是出错,但程序打印完错误信息后会继续执行,并正常退出。

通过配置,logging还可以把错误记录到日志文件里,方便事后排查。

四、抛出错误

因为错误是class,捕获一个错误就是捕获到该class的一个实例。

因此,错误并不是凭空产生的,而是有意创建并抛出的。

python的内置函数会抛出很多类型的错误,我们自己编写的函数也可以抛出错误。

如果要抛出错误,首先根据需要,可以定义一个错误的class,选择好继承关系,然后用raise语句抛出一个错误的实例:class FooError(ValueError):    passdef foo(s):

n =  int(s)    if n == 0:        raise FooError("invalid value: %s" % s)    return 10 / n

foo("0")

输出结果:

Traceback (most recent call last):

File "C:/Python36/test.py", line 10, in module

foo("0")

File "C:/Python36/test.py", line 7, in foo    raise FooError("invalid value: %s" % s)

FooError: invalid value: 0

只有在必要的时候才定义我们自己的错误类型。

如果可以选择python已有的内置错误类型(比如ValueError, TypeError),尽量使用python内置的错误类型。

最后,我们来看另一种错误处理方式:def foo(s):

n = int(s)    if n == 0:        raise ValueError("invalid value: %s" % s)    return 10 / ndef bar():    try:

foo("0")    except ValueError as e:        print("ValieError")        raisebar()

在bar()函数中,我们明明已经捕获了错误,但是,打印一个ValueError之后

又通过raise语句抛出去了。这不是有病吗

其实,这种错误处理方式不但没病,而且相当常见。

捕获错误目的只是记录一下,便于或许追踪。

但是,由于当前函数不知道应该怎么处理该错误,所以,最恰当的方式是继续往上抛,让顶层调用者去处理。

好比一个员工处理不了一个问题时,就把问题一直往上抛,最终会抛给CEO去解决。

注意:raise语句如果不带参数,就会把当前错误原样抛出。

此外,在except中raise一个Error,还可以改写错误类型try:    10 / 0except ZeroDivisionError:    raise ValueError("do not input zero!")

输出结果:

Traceback (most recent call last):

File "C:/Python36/test.py", line 4, in module    raise ValueError("do not input zero!")

ValueError: do not input zero!只要是合理的转换逻辑就可以,但是,绝不应该把一个IOError转成毫不相干的valueError.

总结:

python内置的 try...except...finally 用来处理错误十分方便。

出错时,会分析错误信息并定位错误发生的代码位置才是关键的。

程序也可以主动抛出错误,让调用者来处理相应的错误。

但是应该在文档中写清楚可能会抛出哪些错误,以及错误产生的原因。

python处理图片数据?

生成一张纯色的图片

先设置图片的颜色,接着利用Image模块的new方法新生成一张图片,png格式的图片需要设置成rgba,类似的还有rgb,L(灰度图等),尺寸设定为640,480,这个可以根据自己的情况设定,颜色同样如此。

批量生成图片

上面生成了一张图片,那要生成十张图片呢,这种步骤一样,只是颜色改变的,利用循环就可以解决。首先创建一个颜色列表,把要生成的图片颜色放进去。接着循环获取不同的颜色,保存的时候利用字符串拼接的方法改变图片的名字。

本地生成的图片

封装成函数

前面的方法已经可以批量生成图片了,为了通用性强一点,我们可以封装成函数,把哪些可以改变的参数单独抽离出来。尺寸也同样,使用的时候,可以根据自己的需要定义颜色列表和尺寸。当然还有加一些提示用语和报错兼容性,这里就不讲了。

本地生成的图片