本文目录一览:
python编程遇到的几个坑
1. 爬个别特定网站,不一定得用python写爬虫,多数情况wget一条命令多数网站就能爬的不错,真的玩到自己写爬虫了,最终遇到的无非是如何做大做壮,怎么做分布式爬虫。scrapy这种价值接近0,异步或者多线程搞抓取,选一个成熟的基于磁盘的队列库,kafka之类的,scrapy帮了啥?
2. http库众多,还有gevent库monkey patch以后coroutine的玩这一选择,规模千万的话urllib3很好。
3. 对付网站的诸如登录、ajax,这种不过是体力民工活,不展开了。
4. 速度很重要,放ec2或者国内的云上跑,很重要的指标是你每一亿网页爬下来成本多少,爬的时候比如4核一个虚拟机节点,你能inbound贷款用足100mbps吗。
5. beautifulsoup太慢,全网的爬,encoding的分析也要要快,c实现的chardet还行
最关键的,永远是爬下来以后的信息的提取、分析、使用,就是另外一个话题了。
1.学会使用chrome浏览器查看通信以及查看元素格式
2.增加User-Agent, 这是最简单的反爬措施了
3.写爬虫最好使用Ipython,在交互式的环境下,可以时刻了解自己问题具体出在哪里
4.使用requests
5.用get或者post下好html之后,要确认你需要的东西html里面有,而不是之后用ajax或者javascript加载的。
6.解析的话,BeautifulSoup不错。对于少数非常特殊的,可以考虑用re。
7,需要大量采集数据的话,学会使用框架,比如scrapy。
进阶:
加入网站需要模拟登陆,里面使用了很多ajax或者javascript,或者反爬虫厉害,用requests的session,注意F12查看到底发送了什么数据。
实在不会,就使用模拟浏览器吧,推荐selenium,虽然速度慢点,内存多点,但是真的很省力,而且基本查不出来。
最后,爬虫速度不要太快,加上time.sleep(1),尽量少用多线程,别人建站也不容易,(尤其是小站)你不给别人带来很大的麻烦,别人也就睁一只眼闭一只眼了,否则封IP不是好玩的。
有些页面喜欢使用redirect,然而requests的get和post方法中默认是直接跳转的!很可能你就带着错误的cookies和headers跳转了,所以务必将allow_redirects参数设为false
初学者如何学习python?
Python相对比较简单,零基础也能学,但新手不建议自学。
python是一门语法优美的编程语言,不仅可以作为小工具使用提升我们日常工作效率,也可以单独作为一项高新就业技能!所以学完Python编程之后,只要真的掌握了相关技术,想要找到好的工作还是比较容易的。
建议大家可以从以下三方面来入手:
①先自学一些python书籍
大家可以从书中了解一些基础知识,建立一些编程认知。
但是这样的方式,还是难免会因为没什么基础很快就觉得枯燥了,所以在书籍方面还是建议大家结合视频课程一起来学习,才能更高效一点。
②网上找相关课程
在mooc网学习的是北京理工大学的一门python公开课,整个流程学习下来能够了解一些基础相关,但课程比较浅显,还是感觉有些不系统,也很难靠自学迅速入门。
③报班学习
很多人对网上报班有些排斥,因为难免会觉得会被割韭菜。但是对于零基础的小白学习python编程而言,跟着专业系统化一点的团队一起学习,势必会更省时省力一点的。
毕竟我们没有基础,靠自学又没啥时间去坚持,能有合适的【线上陪伴式】的课程,还是挺值得一试的。建议大家可以先从体验课开始,了解清楚课程含金量,看看往期学员的体验回馈后再报班学习。
Python的学习学习顺序如下:
①Python软件开发基础
②Python软件开发进阶
③Python全栈式WEB工程师
④Python多领域开发
互联网行业目前还是最热门的行业之一,学习IT技能之后足够优秀是有机会进入腾讯、阿里、网易等互联网大厂高薪就业的,发展前景非常好,普通人也可以学习。
想要系统学习,你可以考察对比一下开设有相关专业的热门学校,好的学校拥有根据当下企业需求自主研发课程的能力,能够在校期间取得大专或本科学历,中博软件学院、南京课工场、南京北大青鸟等开设相关专业的学校都是不错的,建议实地考察对比一下。
祝你学有所成,望采纳。
学习python遇到的问题
教材里面是指在命令行里输入命令运行
linux里面(bash)执行python程序方法是
$python xxx.py
注:$表示linux中非root用户,root是#
在windows(cmd)是
python.exe xxx.py
你直接在idle中运行就没有这些效果.
因为在idle中运行相当于已经进入python交互界面后用
import xxx.py
所以arugment 为空!