您的位置:

第一次使用python遇到坑的简单介绍

本文目录一览:

windows环境的python踩坑记

虽然使用python有不少时间了,但是基本没有在windows环境下使用,这不就踩了不少坑,特此记录如下:

安装完成后,发现没有python命令,这个是环境变量的问题,添加就可以了。但是也找不到pip 命令,而进入python里面,可以import pip 模块。这时候,需要用 “python -m ensurepip ” 来生成pip命令了,生成之后添加到环境变量就可以直接使用了, 默认情况下pip的路径: Python_install_path\scripts\pip.exe , 在较新的python版本里面,已经默认会生成pip 命令,也就是说不需要上述步骤就有pip 命令可以使用了.需要注意的是:

如果遇到执行pip.exe 时候报错: Fatal error in launcher: Unable to create process using '"' , 那么可以尝试用: python FULL/PATH/OF/PIP/COMMAND 来替带直接运行 pip, 貌似是无法找到合适的解释器来运行pip造成的.

如果发现系统中已经安装了python,但是缺少需要的module, 需要自己安装,可是不是管理员权限,没办法安装,python 提供了解决办法,方法如下:

A.

使用python -m site 命令,该命令会输出python的sys.path变量的值,以及其他的变量,见如下内容,其中我们可以看到有两个变量:USER_BASE, USER_SITE. 我们可以把需要的module 安装到USER_SITE下.

如果不存在相应的路径,那么我们可以创建.

B.

有了上述的路径后,我们在安装3rd module 的时候,就可以指定安装路径了:

pip install MODULE_FILE.PY --target=ABOVE\USER_SITE\PATH

上述方式安装之后,只有当前用户可以使用这些新装的module, 其他用户是不可以的.

其实这个不能算windows平台的坑了,一般不能import 都是缺少依赖的问题。 那么我们可以返回pip 命令,首先要知道这个module 的路径,通过路径中其他的信息确认这个module所属的package.

关于c调python.h的坑

python.h是基于python-devel的开发包,比如你要用到c调用python去执行一些任务,这个时候python.h就是你的好帮手。在我所理解一般用它都有两个场景:

1. 借助语言优势解决问题;

2. 简化开发难度,偷懒;

在我这,我用它的主要目的在于加入扫描框架的依赖,毕竟lua的学习成本挺高的,如果正好这个安全人员不懂lua,只懂python咋整?能不成让他学习lua么?成本是一个方面,更多的是怎么快起来。一个团队,在快节奏下才能成长起来。

正好手上有一台机器,别人给我用来测试玩的,我就拿来做些调试和环境的测试。还没到生产环境,就遇到不少的坑,当时在线上环境也有测试,陪着运维的小哥一起搞,不断的测试和调整,折腾到很晚才搞成功,这里记录下过程。

默认的情况下,python.h应该在这个位置,但是测试的结果说找不到。内心是崩溃的,我在mac下是正常的。

用find命令找当前系统中的python.h的版本,发现只有2.6的,但是我按照了python2.7,这个版本完全错乱了。

心想,坑啊~~ 为了解决问题,少不得需要重新编译之类的屁事,当然,我们也干了这事,最后发现仍然不行,参考的例子(知乎上的指引,坑b)如下:

首先,你需要先把所有的python环境卸载,然后安装同步的环境,比如python2.7.12,devel也是python2.7.12,还有就是libs也必须是,不然弄不了,另外,编译安装默认不靠谱,最好就是rpm的方式来。包我留下,有需要的玩。

这是我的解决方案,当前完美解决我的问题,另外,推荐大家按照这个方式来搞,特别在centos环境下,这个比较坑爹。

夜曲编程的python坑

不坑。

夜曲编程就初学者入门而言是很不错的,主要有几个优势:课程设计:总体设计由浅入深,学习路径清晰,容易坚持。采用的是卡片模式,每日学习一课,只需花费20来分钟。且页面自带记忆卡片,复杂概念简单化。

偶然在网上发现了夜曲编程这个软件。试着跟着学了一下,先是学习的免费课程。第一次学习的时候,这个教程惊艳了我。首先,夜曲编程的教程都是图文形式的教程,交互式的教学方法让学习的效率有了很大的提高。夜曲编程出自百词斩旗下,它通过卡片的形式将一些编程的知识点放入其中,一定程度上可以增进编程的学习效果。

python编程遇到的几个坑

1. 爬个别特定网站,不一定得用python写爬虫,多数情况wget一条命令多数网站就能爬的不错,真的玩到自己写爬虫了,最终遇到的无非是如何做大做壮,怎么做分布式爬虫。scrapy这种价值接近0,异步或者多线程搞抓取,选一个成熟的基于磁盘的队列库,kafka之类的,scrapy帮了啥?

2. http库众多,还有gevent库monkey patch以后coroutine的玩这一选择,规模千万的话urllib3很好。

3. 对付网站的诸如登录、ajax,这种不过是体力民工活,不展开了。

4. 速度很重要,放ec2或者国内的云上跑,很重要的指标是你每一亿网页爬下来成本多少,爬的时候比如4核一个虚拟机节点,你能inbound贷款用足100mbps吗。

5. beautifulsoup太慢,全网的爬,encoding的分析也要要快,c实现的chardet还行

最关键的,永远是爬下来以后的信息的提取、分析、使用,就是另外一个话题了。

1.学会使用chrome浏览器查看通信以及查看元素格式

2.增加User-Agent, 这是最简单的反爬措施了

3.写爬虫最好使用Ipython,在交互式的环境下,可以时刻了解自己问题具体出在哪里

4.使用requests

5.用get或者post下好html之后,要确认你需要的东西html里面有,而不是之后用ajax或者javascript加载的。

6.解析的话,BeautifulSoup不错。对于少数非常特殊的,可以考虑用re。

7,需要大量采集数据的话,学会使用框架,比如scrapy。

进阶:

加入网站需要模拟登陆,里面使用了很多ajax或者javascript,或者反爬虫厉害,用requests的session,注意F12查看到底发送了什么数据。

实在不会,就使用模拟浏览器吧,推荐selenium,虽然速度慢点,内存多点,但是真的很省力,而且基本查不出来。

最后,爬虫速度不要太快,加上time.sleep(1),尽量少用多线程,别人建站也不容易,(尤其是小站)你不给别人带来很大的麻烦,别人也就睁一只眼闭一只眼了,否则封IP不是好玩的。

有些页面喜欢使用redirect,然而requests的get和post方法中默认是直接跳转的!很可能你就带着错误的cookies和headers跳转了,所以务必将allow_redirects参数设为false

用python操作excel数据之避坑秘技

用python操作excel表里的数据非常方便,可以把不同报表,不同类型的数据各种乾坤大挪移,汇集到一起进行展示。但初学者可能会遇到一些大坑,百思不得其解,而不得不放弃这个神器。现把我在自学过程中遇到的一些坑与大家分享,给初学者参考,欢迎批评指正!

坑一:用pandas的to_excel写入EXCEL时,会把原数据清空。

解决方案:先用openpyxl的load_workbook打开工作薄,再用pandas的ExcelWriter新建写入器,把之前打开的工作薄赋值给写入器的工作薄。

坑二:把带有公式的sheet1数据导入再写入sheet2时,会发现带公式的数据全部为空。

解决方案:可用win32com.client中的Dispatch把EXCEL表打开再保存。

坑三:当把复制文件,新建文件,打开保存文件,数据写入都写在一个程序时,往往由于EXCEL打开保存时间较长而与后续程序冲突报错。

解决方案:每个环节建模块顺序执行,各环节间用time.sleep隔开。

Python分布式进程中你会遇到的坑

写在前面

小惊大怪

你是不是在用Python3或者在windows系统上编程?最重要的是你对进程和线程不是很清楚?那么恭喜你,在python分布式进程中,会有坑等着你去挖。。。(hahahaha,此处允许我吓唬一下你)开玩笑的啦,不过,如果你知道序列中不支持匿名函数,那这个坑就和你say byebye了。好了话不多数,直接进入正题。

分布式进程

正如大家所知道的Process比Thread更稳定,而且Process可以分布到多台机器上,而Thread最多只能分布到同一台机器的多个CPU上。Python的multiprocessing模块不但支持多进程,其中managers子模块还支持把多进程分布到多台机器上。一个服务进程可以作为调度者,将任务分布到其他多个进程中,依靠网络通信。由于managers模块封装很好,不必了解网络通信的细节,就可以很容易地编写分布式多进程程序。

代码记录

举个例子

如果我们已经有一个通过Queue通信的多进程程序在同一台机器上运行,现在,由于处理任务的进程任务繁重,希望把发送任务的进程和处理任务的进程分布到两台机器上,这应该怎么用分布式进程来实现呢?你已经知道了原有的Queue可以继续使用,而且通过managers模块把Queue通过网络暴露出去,就可以让其他机器的进程来访问Queue了。好,那我们就这么干!

写个task_master.py

我们先看服务进程。服务进程负责启动Queue,把Queue注册到网络上,然后往Queue里面写入任务。

请注意,当我们在一台机器上写多进程程序时,创建的Queue可以直接拿来用,但是,在分布式多进程环境下,添加任务到Queue不可以直接对原始的task_queue进行操作,那样就绕过了QueueManager的封装,必须通过manager.get_task_queue()获得的Queue接口添加。然后,在另一台机器上启动任务进程(本机上启动也可以)

写个task_worker.py

任务进程要通过网络连接到服务进程,所以要指定服务进程的IP。

运行结果

现在,可以试试分布式进程的工作效果了。先启动task_master.py服务进程:

task_master.py进程发送完任务后,开始等待result队列的结果。现在启动task_worker.py进程:

看到没,结果都出错了,我们好好分析一下到底哪出错了。。。

错误分析

在task_master.py的报错提示中,我们知道它说lambda错误,这是因为序列化不支持匿名函数,所以我们得修改代码,重新对queue用QueueManager进行封装放到网络中。

其中task_queue和result_queue是两个队列,分别存放任务和结果。它们用来进行进程间通信,交换对象。

因为是分布式的环境,放入queue中的数据需要等待Workers机器运算处理后再进行读取,这样就需要对queue用QueueManager进行封装放到网络中,这是通过上面的2行代码来实现的。我们给return_task_queue的网络调用接口取了一个名get_task_queue,而return_result_queue的名字是get_result_queue,方便区分对哪个queue进行操作。task.put(n)即是对task_queue进行写入数据,相当于分配任务。而result.get()即是等待workers机器处理后返回的结果。

值得注意 在windows系统中你必须要写IP地址,而其他操作系统比如linux操作系统则就不要了。

修改后的代码

在task_master.py中修改如下:

在task_worker.py中修改如下:

先运行task_master.py,然后再运行task_worker.py

(1)task_master.py运行结果如下

(2)task_worker.py运行结果如下

知识补充

这个简单的Master/Worker模型有什么用?其实这就是一个简单但真正的分布式计算,把代码稍加改造,启动多个worker,就可以把任务分布到几台甚至几十台机器上,比如把计算n*n的代码换成发送邮件,就实现了邮件队列的异步发送。

Queue对象存储在哪?注意到task_worker.py中根本没有创建Queue的代码,所以,Queue对象存储在task_master.py进程中:

而Queue之所以能通过网络访问,就是通过QueueManager实现的。由于QueueManager管理的不止一个Queue,所以,要给每个Queue的网络调用接口起个名字,比如get_task_queue。task_worker这里的QueueManager注册的名字必须和task_manager中的一样。对比上面的例子,可以看出Queue对象从另一个进程通过网络传递了过来。只不过这里的传递和网络通信由QueueManager完成。

authkey有什么用?这是为了保证两台机器正常通信,不被其他机器恶意干扰。如果task_worker.py的authkey和task_master.py的authkey不一致,肯定连接不上。