本文目录一览:
如何为python项目创建虚拟环境
我们在开始一个python项目,而不是几行简单的代码时,我们倾向于开始使用第三方的dependencies.当项目越来越大时,我们需要考虑如何有效的管理这些第三方库。当安装第三方库时,我们肯定是想安装在虚拟环境中。帮助我们保持我们实际系统环境的干净,避免打乱整个系统python环境。
我们可以使用pip把第三方库安装到python项目中。一个项目中往往要安装多个,鉴于安装的第三方库的各种版本,可能会导致一些兼容和运行的问题。
当我们在python项目中使用pip install ,我们是安装到全局python下的,将会根据现有的python版本安装第三方包。
我们可以通过以下命令来查找python的安装目录:
如果我们使用pip3 install ,将会安装到python3安装目录的单独的目录下。我们可以用以下命令来覆盖pip3这个命令:
但是这仍然解决不了我们在全局python下安装第三方库的问题,将会出现下列的问题:
为了避免以上的问题,python开发者使用虚拟环境。这个虚拟环境把安装的这些第三方库在一个隔离的环境中(目录内)保存。
确保你的系统上已经安装python
然后看一下pip是否也能正常调用
我们需要一个工具来创建python的虚拟环境,venv。它是封装在python3.3+版本以上的python中的。
如果我们使用python2,我们需要手动安装一个工具。这是为数不多的一个我们需要全局安装的第三方库。
注意:我们将会在文章中讨论很多venv和python3,操作系统环境不同,可能会导致某些命令的些许不同,某些工具的工作原理也些许不同。
如果你的系统上没有安装pip:
我们首先要为项目创建一个文件夹,并进入这个文件夹:
然后我们再创建虚拟环境:
这将会创建一个名为virtualenv的目录,这个目录将会包含bin、lib、include文件夹,还有一个环境配置文件。
所有的文件都是为了确保,所有的代码都运行在当前的虚拟环境下。这会帮我们把工作环境和操作系统环境隔离开来,避免我们之前提到的问题。
为了使用这个虚拟环境,我们需要激活它。激活以后,还会更改我们的命令提示符标志。这个标志也是为了表明虚拟环境已经激活,python的代码都是在这个环境下执行。
在虚拟环境下,无法访问使用全局的第三方库,在虚拟环境内安装的库也无法在外部使用。
在虚拟环境中,只有pip和setuptools是默认安装的。
激活虚拟环境后,变量path也会相应地发生改变,以达到虚拟环境的目的。
当我们完成工作,想切换回操作系统的全局环境,我们需要使用deactivate退出虚拟环境。
我们配置了虚拟环境并激活以后,我们不想在分享项目时,连同使用pip install命令安装的第三方库也一起分享。我们想去除我们的虚拟环境文件夹,但仍然可以在其他的电脑或系统上重新运行我们的工作。
为实现这个目的,我们可以在项目根目录下创建一个requirement文件。假设我们在虚拟环境下安装flask,安装完成后我们使用pip freeze命令。它将会列出我们已经安装过的库名和版本号。
我们可以将这个列表写到requirement文件中,上传到git保存,或以任何形式跟他人分享。
这个命令也可以更新这个requirements.txt文件,所以在每次安装一个新的第三方库时,我们都习惯性的运行一下这个命令,来更新我们的安装列表。
然后,如果任何人想在他们的电脑上运行我们的项目,他们只需要做:
所有的一切都如在我们电脑上运行的一样。
安装pipenv
pipenv基本上是pip的一个替代工具。它引入了两个文件,pipfile用来替换requirements.txt,Pipfile lock(which enables deterministic builds,确定第三方库的子依赖库版本的更新的解决方案)
pipenv在机理上是运行pip和virtualenv,但使用一个命令来简化操作。
安装第三方库,如flask,或numpy
也可以从Version Control system比如git来安装第三方库
需要注意上面的-e参数可以使安装editable,目前对于pipenv来说是必须的。
如果你需要使用pytest来测试项目,但在上线后不需要这个库,你可以指定这个库仅仅作用于开发模式 --dev.
--dev将会把第三库放到pipfile的一个单独的地方【dev-packages】。
如果你现在完成了开发,本地运行正常,你想锁定你的开发环境,并转至线上。使用如下命令确保开发环境:
这个代码将会创建或更新你的环境,你无需手动更改编辑。我们也应该一直使用自动生成的文件。
lock以后,在production环境,你需要安装最新的成功的运行环境。
这个命令是告诉pipenv,安装时忽略pipfile,用pipfile.lock里的列表。pipenv将会创建一模一样的环境,包括子依赖库。
现在,另一个人想要对代码做些更改,这种情况下,他得到代码,包括pipfile,运行如下命令
这个命令将会安装开发所需的所有的第三方库,包括普通的install以及--dev安装的。
举例,现在你开发用到的一个第三库有了版本升级,因为你不需要一个特定的版本,所以你在install的时候没有指定版本号。当你运行pipenv install时,最新版本的第三方库会安装到你的开发环境内。
然后你对代码做了一些更改,结果如预期一样。然后你再重复上面的步骤lock你的环境。并更新至Production.
将会使用默认的editor打开第三方库的代码。
4.python爬虫之新建 scrapy 爬虫项目(抓取和保存)
1.win10 下 win + r 打开cmd 切换新项目的目录
2.新建scrapy项目的命令:
可以利用pycharm 打开项目文件夹编辑项目
3.items.py
声明爬取的字段
4.新建scrapy 爬虫
用命令 scrapy genspider doubanmovie "movie.douban.com" 创建爬虫。
5.运行爬虫
5.1 创建运行脚本
(一)、在 scrapy.cfg 同级目录下创建 pycharm 调试脚本 run.py,避免每次运行爬虫输入密码,内容如下:
6.修改robottxt协议
修改 settings 中的 ROBOTSTXT_OBEY = True 参数为 False,因为默认为 True,就是要遵守 robots.txt 的规则, robots.txt 是遵循 Robot协议 的一个文件,它保存在网站的服务器中,它的作用是,告诉搜索引擎爬虫,本网站哪些目录下的网页不希望你进行爬取收录。在 Scrapy 启动后,会在第一时间访问网站的 robots.txt 文件,然后决定该网站的爬取范围。查看 robots.txt 可以直接网址后接 robots.txt 即可。
一般构建爬虫系统,建议自己编写Item Pipeline,就可以在open(path)选择自己的保存路径
参考: # scrapy爬虫事件以及数据保存为txt,json,mysql
7.1保存为json格式时出现乱码的解决方式:
scrapy抓取豆瓣书籍保存json文件乱码问题
中文默认是Unicode,如:
\u5317\u4eac\u5927\u5b66
在setting文件settings.py中设置:
就可以解决了
第二种解决办法
或在cmd中传入 -s FEED_EXPORT_ENCODING='utf-8'
参考:
ubuntu 下创建python环境
Ubuntu中使用python3中的venv创建虚拟环境
以前不知道Python3中内置了venv模块,一直用的就是virtualenv模块,venv相比virtualenv好用不少,可以替代virtualenv
一、安装venv包:
pre$ sudo apt install python3-venv/pre
二、创建虚拟环境
首先创建一个项目文件夹,虚拟环境将会安装在项目文件夹下,我这里使用的项目文件夹是myproject,进入mypeoject文件夹,执行命令:
pre$ python3 -m venv venv/pre
这时虚拟环境就创建好了,默认是Python3的环境
三、激活虚拟环境
在项目文件夹下,执行activate文件激活虚拟环境
presource venv/bin/activate/pre
四、创建项目
可以看到项目文件夹下除了venv的虚拟环境文件,没有项目文件,可以使用pip工具安装任何你需要的框架,比如flask、django
五、退出虚拟环境
predeactivate/pre
python新项目怎样创建
python创建新项目的方法:
1、打开pycharm,按顺序单击Filenew ProjectPure Python
2、单击Create,最后单击Attaach就可以在当前窗口创建新项目了
更多Python知识,请关注:Python自学网!!