本文目录一览:
- 1、生信菜狗,各种软件升级后前一版的包怎么装回来?
- 2、Miniconda使用体验
- 3、生信常见脚本的命令行传参方式--python,R,Perl,Shell
- 4、Perl,R,Python在生物信息学中是怎样的角色?
- 5、【Linux】生物信息软件安装过程
- 6、生信软件BUSCO安装
生信菜狗,各种软件升级后前一版的包怎么装回来?
可以先把现有的都卸载了
然后重装miniconda,因为科学计算的包一般都选conda的比较好,
然后就是不知道你是否熟悉虚拟环境,为了避免每次把你的环境搞乱,创建虚拟环境是最保险的
使用类似这样的命令
conda create -n vname
conda activate vname
Miniconda使用体验
生信入门的第一步就是要学会安装软件,但有些软件的安装和编译比较麻烦,这个时候就会怀念windows系统的方便。
根据生信技能树和菜鸟团里的介绍,linux系统也有这种自动式的安装软件的方式,因此,开始体验使用conda来安装软件。
安装简单,只需要在服务器上运行即可
此时会在home目录下生成miniconda3的文件夹,并更新下环境变量。
注:如果安装后不想在终端前显示(base)
conda install fastqc(软件名)
which fastqc 查看软件安装位置
conda list 可以查看已安装软件列表,conda默认安装软件的最新版本,如果想安装指定版本的某个软件,可以先用“conda search 软件名”搜索软件版本。
星号标记的表示是已经安装的版本。要 安装其他版本 ,输入:
conda install 软件名=版本号
这时conda会先卸载已安装版本,然后重新安装指定版本。
如果想要安装列表中的软件,可进入该软件的conda主页,比如cutadapt[ ]
里面会告诉应该使用什么命令~
安装完后的软件在miniconda2文件夹里面的pkgs文件夹下面。
conda config --add channels
查看已经添加的channels
conda config --get channels
conda config --remove channels
conda update conda
conda remove 软件名
source activate 软件名 #把目录添加进环境变量
source deactivate #从环境变量里面 删去
conda info -e
例子:
安装snakemake,snakemake已经整理成Python包,可以直接使用 pip 进行安装,不过需要的Python3的环境,利用 conda 进行安装:
试试 snakemake -h 看看安装成功没有?
但是可能网络会不太好,可能需要多几次进行安装。
参考:
用Miniconda,Bioconda来安装常见的生物信息学软件 | 生信菜鸟团 [ ] ;
。
生信常见脚本的命令行传参方式--python,R,Perl,Shell
getopt
python 也可以使用getopt文件传参
getopt 是很多语言都有的传参函数,不过平时在写Rscript的时候经常用到。
一般而言:
Perl,R,Python在生物信息学中是怎样的角色?
应该说Python/Perl是相互替代的脚本语言,但个人推荐用Python, 虽然很多老的生物信息软件是用Perl,Python学习曲线好,功能也更强大,是发展趋势。这两个语言主要是做数据预处理、文本处理和格式转换、对算法效率要求不高的分析软件开发,系统管理和pipeline搭建等工作。R语言主要的优势是大量的统计包的支持,数据统计分析中非常常用。Python和R有良好的接口。关于绘图很多人用R,其实Python的Matplotlib的绘图效果比它漂亮很多,也更强大。对pipeline的搭建shell编程更适合,是一个不可缺少的技能。与数据库相关的工作需要用到SQL, Linux : 操作系统,是基础。 生物信息对Linux的要求其实并不高,并不是要做系统开发者或管理员,只需要会用就行。复制粘贴、处理数据、安装软件等。生物信息软件:标准数据分析。 生物信息学的数据格式已经基本标准化,大部分工作可以直接用软件完成。Perl和Python:处理个性化问题、软件之间的对接。 这两门语言至少应该熟练掌握一门自己写程序用,另外一门要能看得懂。 写点小脚本感觉差别不大,但是perl写大程序不合适。 很多人认为python是趋势,但至少截止目前更多生信软件是用perl写的。 所以,如果刚开始学,建议主打python, 看懂perl。R :数据处理、统计、绘图、数据分析。 R语言的数据结构跟其他语言差异较大、而且总感觉语法比较散,不好记。但是R的软件包却异常强大。数据处理的reshape2, dplyr;绘图的ggplot2;还有Bioconductor里的几千个包。不得不会。
【Linux】生物信息软件安装过程
小炒:搜索 “conda cheatsheet”
好处:
添加channel
channel是有顺序的,一般保持bioconda在第一个,conda-forge在第二个。-defaults放最后。
创建软链接 ,相当于在桌面创建了快捷方式: ln -s
例: ln -s ~/miniconda3/envs/python2/macs2 ~/.local/bin
搜索生信软件
-availiable packages
Tips
二进制版本
以 ncbi-blast ,'sra-toolkit','hisat2'为例
预编译版本
以 zlib 为例,samtools依赖的软件。
tree 的安装只需后两步,且最后一步的时候要做修改,记得去看 Read me 。
三部曲解读:
如果没有root权限要解决软件依赖的问题:
修改makefile的变量名
python包软件管理工具
conda 安装deeptools
deeptools在python2下表现更好。
链接:
1.
2.
举两个例子:
参考:
bilibili:zhougengxu
生信软件BUSCO安装
现在得到一个文昌鱼组装基因组。我希望看看它的质量如何,也就是找组装基因组是否包含许多完整基因、以及N50序列是否达标等问题。
我看到网上教程都是自己去搞配置,设置环境变量,但是conda安装难道不香吗?BUSCO官网也给出了conda安装的方法:(最好是重新创造个python=3.8的conda环境)
conda install -y -c bioconda busco=4.1.2 augustus=3.3.3
安装好之后,输入busco
emm这是“biopython”出了问题了啊。然后我到上面提到的那个网址搜了一下,发现果然是conda安装的有问题。
这时,只要把biopython从1.78降到1.77就可以了
命令:conda install -y -c conda-forge biopython=1.77 就可以覆盖安装了,而且神奇的是安装完就可以使用了,输入 busco -h 不会报错。
注:本来想用cegma那个软件,但好像六年前就停止运营了……(bilibili上看的教学视频太久远了)
如果你也遇到了同样的问题,应该会有帮助,不过过一段时间应该就修复这个bug了。
2020 09 15 补充:
这样即使安装上了,也不能使用,会报错。博主又尝试了安装busco 4.0.2的版本,和augustus 3.3.3 版本,发现可以使用。(还是需要biopython = 1.77)
注意这个软件只是看测序质量怎么样,虽然调用了augustus,但是它生成的文件比较乱,想要做从头基因注释,还是再用一次augustus吧!