🎊 CLEAN工具成功安装经历——蛋白酶精准预测工具

CLEAN工具成功安装经历——蛋白酶精准预测工具

!!!!重要!!!! 所有工作开始前,请注意原文作者给的重要提示: 安装本工具软件,需要单机内存应 >12G;

CLEAN是2023年发表在Science主刊上的一篇文章介绍的工具,其对酶蛋白的分类预测(功能预测)为目前行业精准度最高。根据对不同工具的比较,不同工具间的精准度在30-60%之间,而CLEAN做到了86.75~100%;

1)对原作提供的安装方案添加了部分注释,方便新人理解; 2)提供了一个成功安装实例——适合零基础的新手参考安装;

从零基础开始,要安装单机版CLEAN蛋白酶功能预测工具,需要预先Linux版系统,如Ubuntu;Windows10及以上的系统,还可以使用Windows版的linux子系统(代码版),即WSL;在使用CLEAN等一般生信平台软件时,与Linux系统并无差别。

win10pro、win11pro可很方便的安装WSL;但如果你用的CMGE版win10,则全过程需要纯手工,需要花费一些力气;

有了wsl,就可以参考原作提供的安装方案,或是分割线后面的安装实例,自行安装尝试;

如果你课题支持充裕,那么花钱买方便,无疑能够节省巨量宝贵时间; 既然不是屌丝,为什么要花费大量时间去搞这些?

首先提供原作者CLEAN程序的仓库地址(github链接地址) https://github.com/tttianhao/CLEAN

接下来咱们先看看原作提供的方案(适于具有一定Linux经验的用户):

有一些个人提供的注释

1. Install

1.1 Requirements Python >= 3.6; PyTorch >= 1.11.0; CUDA >= 10.1;

the original Manuscript results were obtained using;

Python 3.10.4; PyTorch 1.11.0; CUDA 11.3; fair-esm 1.0.2;

1.2 Quickstart

cd CLEAN/app/ #进入指定路径;

conda create -n clean python==3.10.4 -y #创建程序以来的基础环境;

conda activate clean #激活环境

pip install -r requirements.txt #安装其他依赖的工具

安装Pytorch; cpu和gpu模式分别对号入座;有gpu加速的,的确速度会快;没有cpu加速的,则主要取决于cpu性能

conda install pytorch==1.11.0 cpuonly -c pytorch (CPU)

conda install pytorch==1.11.0 cudatoolkit=11.3 -c pytorch (GPU)

python build.py install

安装核心组件;

git clone https://github.com/facebookresearch/esm.git #采用git克隆的方式进行安装;

mkdir data/esm_data #创建必要的路径;

python CLEAN_infer_fasta.py --fasta_data price #运行测试指令;

看起来上述过程是十分简单轻松的,但是实际走下来,对于高手来说,也确实是轻松拿捏; 但是对于〇基础的人来讲,还是会面临很多的问题;

根据大家安装的Ubuntu版本、基础系统环境的不同,可能会遇到各种不同的问题;

-------------- 详细过程见ads后面内容;

////||||\\\\某鱼 “ Interpro Pfam蛋白功能重批注、注释 ” ////||||\\\\某鱼 “ 蛋白表达亚细胞定位分析;全流程 ” ////||||\\\\某鱼 “病毒蛋白亚细胞定位 ” ////||||\\\\某鱼 “Enzyme function prediciton using constrative learning 可开发P ” ||||\\\\某鱼 “signalp6 分泌信号肽预测 可开发P ” ////||||\\\\某鱼 “全基因组间序列比对,找差异表达序列 ” ////||||\\\\某鱼 “ 序列进化树作图,系统进化树作图; ” ////||||\\\\某鱼 “ pacbio测序数据分析,功能酶挖掘,可开发P ” ////||||\\\\某鱼 CataPro蛋白酶活性预测 可批量; ////||||\\\\ ProtComp 细菌、真菌蛋白亚细胞定位分析 --- 可批量操作基因组级,细菌基因组大约含有3000条序列,真菌大约4000多条,部分含有质粒的可能更多; ---- 对于数量大于1 0000 条序列的分析,需单独协商,毕竟,这并不仅仅是数量的增加,分析过程;处理数据的过程;难度增加,并不是线性关系;

-- ads结束 |||

下面是一个真实安装实例(最终是安装成功了的):

既然有了原作者提供的安装步骤,接下来,打开了网页版的readme.md文件(也可下载后打开),根据提示,cd到CLEAN文件夹:

cd CLEAN/app/

如果没有提前创建这个路径,创建;再运行上面的命令; CLEAN的路径一般是建立在 \Ubuntu\home\current_user\ 下面;

mkdir CLEAN

cd ~/CLEAN/

mkdir app # 1,创建CLEAN路径;2,进入CLEAN路径;3,在CLEAN路径下创建新的子路径 app;

之后是创建一个名称为clean的环境,pathon版本为3.10.4

conda create -n clean python==3.10.4 -y

激活该环境:

conda activate clean

根据readme,运行批量安装指令:

pip install -r requirements.txt

……运行失败,提示没有这个文件 解决方案:找到requirement.txt文件,并将其手动移动到对应的路径下面即可,即运行命令的当前位置:CLEAN/app/ 找到requirement文件所在的位置,使用mv指令,或explorer.exe【适用wsl】,或cmd移动 or 复制到目的路径【适用wsl】

安装Pytorch:

conda install pytorch==1.11.0 cpuonly -c pytorch (CPU)

conda install pytorch==1.11.0 cudatoolkit=11.3 -c pytorch (GPU)

实例机子没有gpu,选第一条命令:

conda install pytorch==1.11.0 cpuonly -c pytorch

正常走完,过程依各位所处环境不同,所需时间不一; ing——Solving enviroment,后面安装了一系列的子程序

1)这个过程需要链接服务器下载很多子程序,根据你的wsl对sourceslist文件配置,以及对应的服务器地址信息,时间不一;

2)但一般来说,国内source.list服务器要比Ubuntu本身的速度上要快很多;

3)国内的某些服务器,运行过程可能会出错,比如它在镜像中可能会找不到某个组件而终止或失败;而Ubuntu官方原版则不会有这样的问题,但就有点龟速了……

Proceed (y/n) 当然选择Yes往下走; ing_prytorch-1.11.0 47.4 MB 等还有下面多个子程序,版本未列出 typing_extensions-4 libroprotobuf-3.20.3 ninja pycparser icu numpy liblapack libstdcxx llvm-openmp mkl-2022.2.1 下载速度接近1 MB/S,这个速度是由于当前机器配置了阿里云的source文件,如果是Ubuntu的,可能就是龟速体验了……(还有可能给你是不是的中断一下,让你是不是的心跳加速一下下………) libblas libhwloc sleef tbb libxml _openmp cpuonly-2.0 zstd pytorch-mutex libcblas python_abi-3.10 Preparing transaction:done verifying transaction:done executing transaction:done 三行结尾处,三个 done出现,表示成功安装;进入下一步:

接下来,根据提示:分别下载pretrained数据(即预训练好的数据),放置到合适的位置(data/pretrained文件夹,如果没有创建,则先行创建,方法基本同上面;然后再继续)

git clone https://github.com/facebookresearch/esm.git

#克隆github仓库种的CLEAN代码到本地(这也是原作提供的便携方案之一)

python build.py install

成功运行;

有些人可能并没有安装git,如此的话,就需要专门安装git先,再进行git clone命令;

sudo apt-get update

sudo apt-get install git

#之后再进行 git clone;

根据reame文件提示,创建必要的路径——下面这条命令一次不能创建的话,就分两次,方法参考前文创建/CLEAN/app/路径的方法:

mkdir data/esm_data

根据原始文档,已没有更多的提示信息;

接下来,尝试运行分析example——示例文件:

python CLEAN_infer_fasta.py --fasta_data price

error prompt,出现: /home/XXXXXX【当前Ubuntu的用户名】/miniconda3/envs/clean/lib/python3.10/site-packages/scipy/__init__.py:146: UserWarning: A NumPy version >=1.16.5 and <1.23.0 is required for this version of SciPy (detected version 1.26.4 warnings.warn(f"A NumPy version >={np_minversion} and <{np_maxversion}" Downloading: "https://dl.fbaipublicfiles.com/fair-esm/models/esm1b_t33_650M_UR50S.pt" to /home/xiaoh/.cache/torch/hub/checkpoints/esm1b_t33_650M_UR50S.pt

这里是重点,需要认真对待,问题解决不了,则程序无法继续运行

仔细分析,这里实际上是遇到了三个问题:

1)NumPy与SciPy版本不兼容,要么降级NumPy,要么升级SciPy,应该都可以; NumPy version >=1.16.5 and <1.23.0 is required for this version of SciPy (detected version 1.26.4 本例操作中,是对NumPy进行了降级处理; 2)需要下载两个文件,详见readme.md,当前只是展示了一个,手动下载然后解压,再把内容移动到指定文件夹即可; 也可采用wget进行下载,并指定到对应的路径下也没毛病; 3)程序默认需要下载训练好的文件esm1b_t33_650M_UR50S.pt,文件大小7.29G;到指定的文件夹即可; 再次尝试运行预测分析示例文件命令:

python CLEAN_infer_fasta.py --fasta_data price

提示失败,想想原因,过程中cd到了别的目录查看目录结构,因此需要 cd回到CLEAN/app文件夹下 之后再次运行命令如下:

python CLEAN_infer_fasta.py --fasta_data price

Read data/inputs/price.fasta with 149 sequences Processing 1 of 16 batches (15 sequences) Processing 2 of 16 batches (13 sequences) Nice ! ! ! -------程序正常运行;至此CLEAN安装结束;

🎈 相关推荐

dnf男法师哪个刷图快
🏷️ 365dni是什么

dnf男法师哪个刷图快

📅 11-01 👀 7294
中国队0:1不敌韩国 小组第二晋级18强
🏷️ 中爱365APP

中国队0:1不敌韩国 小组第二晋级18强

📅 07-11 👀 6599
镜头过滤器(31 张照片):类型
🏷️ 中爱365APP

镜头过滤器(31 张照片):类型

📅 08-29 👀 1528
王者荣耀6级贵族多少钱
🏷️ 中爱365APP

王者荣耀6级贵族多少钱

📅 08-16 👀 261
辭典檢視
🏷️ 中爱365APP

辭典檢視

📅 08-13 👀 727
九阴团战新王者 神龙北武剑初步评测
🏷️ 中爱365APP

九阴团战新王者 神龙北武剑初步评测

📅 09-04 👀 3656