티스토리 뷰

이차 구조 예측 프로그램 psipred 4.0 설치


fasta 형식으로 작성된 아미노산 서열에서 단백질의 이차 구조를 예측 해주는 psipred의 최신 버전 psipred 4.0 설치 및 사용. Web 판은 있지만, 버전 ver.3.3. 로컬에 넣을 수 있으면 좀 편해서 설치하기로 보았다.

prerequisites

blast 또는 blast +를 설치해야합니다. 자세한 내용은이 근처를 보여주세요. CentOS 7의 경우 다음과 같이 /usr/local/package/blastplus/2.7.1에 blast + 2.7.1을 설치 할 수있었습니다.

yum -y install wget perl

mkdir -p /usr/local/package/blastplus/2.7.1 # 설치 디렉토리를 만들어 둔다.

wget ftp://ftp.ncbi.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.7.1+-1.x86_64.rpm

wget ftp://ftp.ncbi.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.7.1+-1.x86_64.rpm.md5

yum -y install perl-List-MoreUtils perl-Digest-MD5 perl-Archive-Tar # 필요한 Perl 모듈 설치

rpm -Uvh --prefix = / usr / local / package / blastplus / 2.7.1 ncbi-blast-2.7.1 + -1.x86_64.rpm # blast + 2.7.1 설치

Mac OS의 경우 바이너리가 배포되고 있기 때문에 그것을 다운로드하고 설치하는 편이 빠릅니다.

Download & Install

다음과 같이하여 psipred 4.0을 설치합니다.

git clone https://github.com/psipred/psipred.git

cd psipred / src

make

make install

그런데 psipred 내부에서 blast 프로그램과 데이터베이스를 이용하고있다. 서열 상 동성 분석에서 매우 유명한 blast을 개발하고있다 NCBI가 더 빠르고 정확한 blast +를 개발, 최근에는 blast 개발은 멈추지있어 blast +로 전환하기 시작한 대해 psipred 팀이 조금 댓글을 남기고있다 (다운로드 해왔다 psipred 디렉토리에있는 BLAST + 디렉토리에있는 README 참조). 이에 따르면 blast +가 된 것으로 처음에는 psipred의 정밀도든지 무엇인가 영향이 나온 것 같다,하지만 blast + 개발이 주류가되어 버렸기 때문에, psipred 개발팀 (어쩔 수없이) runpsipredplus를 창조했다 에서이 근처의 정확성 문제는 대체로 해결, 같은 일이 쓰여져있다. 라고하는 것으로, 여기 runpsipredplus을 사용하자.

다운로드 직후는 / path / to / psipred / BLAST + 디렉토리에있는이 runpsipredplus를 bin 디렉토리로 옮기거나 또는 심볼릭 링크를 걸어 둔다. 아마 이것으로 OK.

prepare sequence database in local

예를 들어 UNIREF90에서 좋은 느낌으로 중복을 제거하고 배열 데이터베이스를 다운로드하여 사용하는 것이 좋습니다되는 것 같습니다.

SEQUENCE DATA BANK


As of PSIPRED V4.0 onwards, we no longer believe it is necessary for the sequence data banks used with PSI-BLAST to be filtered to remove low-complexity regions, transmembrane regions, and coiled-coil segments. The search data bank can therefore be any large non-redundant protein sequence data bank, with UNIREF90 (being the recommended one.


것으로 다음과 같이 공유 디렉토리의 / shared / database / blast_db / uniref90에 파일을 생성 해 둔다.

wget ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/uniref90.fasta.gz # 14GB도 있고 이성 것

gunzip uniref90.fasta.gz # 해동 시간 엄청 길고 이성 것

uniref90.fasta 파일 크기는 약 29GB 정도가되었습니다. 이것은 공유 디렉토리에서 다른 사람도 사용할 수 있도록 / shared / database / blast_db / uniref90 / uniref90.fasta라는 곳에 놓아 둡니다.

Usage

아까 runpsipredplus에 대해 언급했는데, 이것이 실행 스크립트입니다. 기본적으로 ./runpsipredplus hogehoge.fa을 실행하면됩니다. 그러나 잘 데이터베이스 등의 path를 인식 해주지 않는 경우에는 runpsipredplus의 다음 부분을 수동으로 이런 느낌에 다시 봅시다.

# The name of the BLAST + data bank

set dbname = /shared/database/blast_db/uniref90/uniref90.fasta

 # Where the NCBI BLAST + programs have been installed

set ncbidir = /usr/local/package/blastplus/2.7.1/bin

 # Where the PSIPRED V3 programs have been installed

set execdir = ../bin

 # Where the PSIPRED V3 data files have been installed

set datadir = /usr/local/package/psipred/4.0/data

절대 경로로 지정해 주면 오작동는 않을 것입니다. 변수 execdir라고 선언되어 있지만 사용되지 않은 생각이 들지만 ...... 뭐 좋아.

qsub에 투입 할 때 작업에 인수 전달을 이용하여 명령 줄에서 입력을 받아들이도록하면 좋을 것입니다 (이하 PBS torque 큐잉 시스템의 경우).

#! / bin / sh

#PBS -l nodes = 1 : ppn = 8

#PBS -q default

#PBS -l walltime = 1 : 00 : 00

 test $ PBS_O_WORKDIR && cd $ PBS_O_WORKDIR

 test $ VAR1 || {echo "VAR1 is not set"; exit 1;}

runpsipredplus $ VAR1

이를 run_psipred.sh로 qsub -v VAR1 = hogehoge.fa run_psipred.sh 같은 느낌. 100 아미노산 정도의 것이라면 대체로 당 20 ~ 30 분에 끝납니다.


댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함