!!!!重要!!!! 所有工作开始前,请注意原文作者给的重要提示: 安装本工具软件,需要单机内存应 >12G;
CLEAN是2023年发表在Science主刊上的一篇文章介绍的工具,其对酶蛋白的分类预测(功能预测)为目前行业精准度最高。根据对不同工具的比较,不同工具间的精准度在30-60%之间,而CLEAN做到了86.75~100%;
1)对原作提供的安装方案添加了部分注释,方便新人理解; 2)提供了一个成功安装实例——适合零基础的新手参考安装;
从零基础开始,要安装单机版CLEAN蛋白酶功能预测工具,需要预先Linux版系统,如Ubuntu;Windows10及以上的系统,还可以使用Windows版的linux子系统(代码版),即WSL;在使用CLEAN等一般生信平台软件时,与Linux系统并无差别。
win10pro、win11pro可很方便的安装WSL;但如果你用的CMGE版win10,则全过程需要纯手工,需要花费一些力气;
有了wsl,就可以参考原作提供的安装方案,或是分割线后面的安装实例,自行安装尝试;
如果你课题支持充裕,那么花钱买方便,无疑能够节省巨量宝贵时间; 既然不是屌丝,为什么要花费大量时间去搞这些?
首先提供原作者CLEAN程序的仓库地址(github链接地址) https://github.com/tttianhao/CLEAN
接下来咱们先看看原作提供的方案(适于具有一定Linux经验的用户):
有一些个人提供的注释
1. Install
1.1 Requirements Python >= 3.6; PyTorch >= 1.11.0; CUDA >= 10.1;
the original Manuscript results were obtained using;
Python 3.10.4; PyTorch 1.11.0; CUDA 11.3; fair-esm 1.0.2;
1.2 Quickstart
cd CLEAN/app/ #进入指定路径;
conda create -n clean python==3.10.4 -y #创建程序以来的基础环境;
conda activate clean #激活环境
pip install -r requirements.txt #安装其他依赖的工具
安装Pytorch; cpu和gpu模式分别对号入座;有gpu加速的,的确速度会快;没有cpu加速的,则主要取决于cpu性能
conda install pytorch==1.11.0 cpuonly -c pytorch (CPU)
conda install pytorch==1.11.0 cudatoolkit=11.3 -c pytorch (GPU)
python build.py install
安装核心组件;
git clone https://github.com/facebookresearch/esm.git #采用git克隆的方式进行安装;
mkdir data/esm_data #创建必要的路径;
python CLEAN_infer_fasta.py --fasta_data price #运行测试指令;
看起来上述过程是十分简单轻松的,但是实际走下来,对于高手来说,也确实是轻松拿捏; 但是对于〇基础的人来讲,还是会面临很多的问题;
根据大家安装的Ubuntu版本、基础系统环境的不同,可能会遇到各种不同的问题;
-------------- 详细过程见ads后面内容;
////||||\\\\某鱼 “ Interpro Pfam蛋白功能重批注、注释 ” ////||||\\\\某鱼 “ 蛋白表达亚细胞定位分析;全流程 ” ////||||\\\\某鱼 “病毒蛋白亚细胞定位 ” ////||||\\\\某鱼 “Enzyme function prediciton using constrative learning 可开发P ” ||||\\\\某鱼 “signalp6 分泌信号肽预测 可开发P ” ////||||\\\\某鱼 “全基因组间序列比对,找差异表达序列 ” ////||||\\\\某鱼 “ 序列进化树作图,系统进化树作图; ” ////||||\\\\某鱼 “ pacbio测序数据分析,功能酶挖掘,可开发P ” ////||||\\\\某鱼 CataPro蛋白酶活性预测 可批量; ////||||\\\\ ProtComp 细菌、真菌蛋白亚细胞定位分析 --- 可批量操作基因组级,细菌基因组大约含有3000条序列,真菌大约4000多条,部分含有质粒的可能更多; ---- 对于数量大于1 0000 条序列的分析,需单独协商,毕竟,这并不仅仅是数量的增加,分析过程;处理数据的过程;难度增加,并不是线性关系;
-- ads结束 |||
下面是一个真实安装实例(最终是安装成功了的):
既然有了原作者提供的安装步骤,接下来,打开了网页版的readme.md文件(也可下载后打开),根据提示,cd到CLEAN文件夹:
cd CLEAN/app/
如果没有提前创建这个路径,创建;再运行上面的命令; CLEAN的路径一般是建立在 \Ubuntu\home\current_user\ 下面;
mkdir CLEAN
cd ~/CLEAN/
mkdir app # 1,创建CLEAN路径;2,进入CLEAN路径;3,在CLEAN路径下创建新的子路径 app;
之后是创建一个名称为clean的环境,pathon版本为3.10.4
conda create -n clean python==3.10.4 -y
激活该环境:
conda activate clean
根据readme,运行批量安装指令:
pip install -r requirements.txt
……运行失败,提示没有这个文件 解决方案:找到requirement.txt文件,并将其手动移动到对应的路径下面即可,即运行命令的当前位置:CLEAN/app/ 找到requirement文件所在的位置,使用mv指令,或explorer.exe【适用wsl】,或cmd移动 or 复制到目的路径【适用wsl】
安装Pytorch:
conda install pytorch==1.11.0 cpuonly -c pytorch (CPU)
conda install pytorch==1.11.0 cudatoolkit=11.3 -c pytorch (GPU)
实例机子没有gpu,选第一条命令:
conda install pytorch==1.11.0 cpuonly -c pytorch
正常走完,过程依各位所处环境不同,所需时间不一; ing——Solving enviroment,后面安装了一系列的子程序
1)这个过程需要链接服务器下载很多子程序,根据你的wsl对sourceslist文件配置,以及对应的服务器地址信息,时间不一;
2)但一般来说,国内source.list服务器要比Ubuntu本身的速度上要快很多;
3)国内的某些服务器,运行过程可能会出错,比如它在镜像中可能会找不到某个组件而终止或失败;而Ubuntu官方原版则不会有这样的问题,但就有点龟速了……
Proceed (y/n) 当然选择Yes往下走; ing_prytorch-1.11.0 47.4 MB 等还有下面多个子程序,版本未列出 typing_extensions-4 libroprotobuf-3.20.3 ninja pycparser icu numpy liblapack libstdcxx llvm-openmp mkl-2022.2.1 下载速度接近1 MB/S,这个速度是由于当前机器配置了阿里云的source文件,如果是Ubuntu的,可能就是龟速体验了……(还有可能给你是不是的中断一下,让你是不是的心跳加速一下下………) libblas libhwloc sleef tbb libxml _openmp cpuonly-2.0 zstd pytorch-mutex libcblas python_abi-3.10 Preparing transaction:done verifying transaction:done executing transaction:done 三行结尾处,三个 done出现,表示成功安装;进入下一步:
接下来,根据提示:分别下载pretrained数据(即预训练好的数据),放置到合适的位置(data/pretrained文件夹,如果没有创建,则先行创建,方法基本同上面;然后再继续)
git clone https://github.com/facebookresearch/esm.git
#克隆github仓库种的CLEAN代码到本地(这也是原作提供的便携方案之一)
python build.py install
成功运行;
有些人可能并没有安装git,如此的话,就需要专门安装git先,再进行git clone命令;
sudo apt-get update
sudo apt-get install git
#之后再进行 git clone;
根据reame文件提示,创建必要的路径——下面这条命令一次不能创建的话,就分两次,方法参考前文创建/CLEAN/app/路径的方法:
mkdir data/esm_data
根据原始文档,已没有更多的提示信息;
接下来,尝试运行分析example——示例文件:
python CLEAN_infer_fasta.py --fasta_data price
error prompt,出现: /home/XXXXXX【当前Ubuntu的用户名】/miniconda3/envs/clean/lib/python3.10/site-packages/scipy/__init__.py:146: UserWarning: A NumPy version >=1.16.5 and <1.23.0 is required for this version of SciPy (detected version 1.26.4 warnings.warn(f"A NumPy version >={np_minversion} and <{np_maxversion}" Downloading: "https://dl.fbaipublicfiles.com/fair-esm/models/esm1b_t33_650M_UR50S.pt" to /home/xiaoh/.cache/torch/hub/checkpoints/esm1b_t33_650M_UR50S.pt
这里是重点,需要认真对待,问题解决不了,则程序无法继续运行
仔细分析,这里实际上是遇到了三个问题:
1)NumPy与SciPy版本不兼容,要么降级NumPy,要么升级SciPy,应该都可以; NumPy version >=1.16.5 and <1.23.0 is required for this version of SciPy (detected version 1.26.4 本例操作中,是对NumPy进行了降级处理; 2)需要下载两个文件,详见readme.md,当前只是展示了一个,手动下载然后解压,再把内容移动到指定文件夹即可; 也可采用wget进行下载,并指定到对应的路径下也没毛病; 3)程序默认需要下载训练好的文件esm1b_t33_650M_UR50S.pt,文件大小7.29G;到指定的文件夹即可; 再次尝试运行预测分析示例文件命令:
python CLEAN_infer_fasta.py --fasta_data price
提示失败,想想原因,过程中cd到了别的目录查看目录结构,因此需要 cd回到CLEAN/app文件夹下 之后再次运行命令如下:
python CLEAN_infer_fasta.py --fasta_data price
Read data/inputs/price.fasta with 149 sequences Processing 1 of 16 batches (15 sequences) Processing 2 of 16 batches (13 sequences) Nice ! ! ! -------程序正常运行;至此CLEAN安装结束;