スーパーコンピュータ
BLAST 利用法
このページは現在メンテナンスされていない Legacy BLAST の説明を記載しています。Legacy BLAST ではなく BLAST+ を使用することを推奨します。
National Center for Biotechnology Information (NCBI) から提供されている NCBI ToolKit における BLAST の使用方法を解説します。
更新記録
- 2006 年 11 月 26 日
本ページを作成しました。
解説内容
使用方法 -基本編-
BLAST ディストリビューションには以下のような実行プログラムがあります。
- blastall
- BLAST サーチを以下の 5 つの BLAST プログラムのうちの 1 つを使って実行します。
blastp, blastn, blastx, tblastn, tblastx - blastpgp
- PSI-BLAST もしくは PHI-BLAST モードでサーチを行います。
- bl2seq
- 2 つのシークエンスのローカルアライメントを行います。
- formatdb
- FASTA フォーマットのファイルのシークエンスデータベースを BLAST データベースに変換します。
blastall コマンドの主なオプション
- [-p]
- 以下の 5 つの BLAST プログラムのうち 1 つを指定します
プログラム 問い合わせ配列 データベース blastn 塩基配列 塩基配列 blastp アミノ酸配列 アミノ酸配列 tblastn アミノ酸配列 塩基配列 (翻訳しながら比較) blastx 塩基配列 (翻訳後比較) アミノ酸配列 tblastx 塩基配列 (翻訳後比較) 塩基配列 (翻訳しながら比較) - [-d]
- データベース名。
- [-i]
- クエリーシークエンスのファイル名。
- [-o]
- 出力ファイル名。デフォルト: 標準出力
- [-a]
- 並列実行数
- <使用例>
-
・ローカルで実行する際にはログインノードから計算ノードに qlogin でログインします
[username@slogin1 ~]$ qlogin
Your job 25769 ("QLOGIN") has been submitted
waiting for interactive job to be scheduled ...
Your interactive job 25769 has been successfully scheduled.
Establishing /home/geadmin/N1GE/util/qlogin_wrapper session to host ncXXXi ..
. Last login: Wed Jan 28 09:54:59 2009 from ngw04
[username@scXXX ~]$
[username@scXXX ~]$ higet -d fasta genbank AB094050 > AB094050.fasta
・blast を最初に実行する際にはユーザホームに .ncbirc ファイルを作成してください
[username@scXXX ~]$ cat ~/.ncbirc
[NCBI]
Data=/usr/local/package/ncbi_toolkit/current/data
[BLAST]
BLASTDB=/usr/local/db/blast
[username@scXXX ~]$ blastall -p blastn -d genbank/gss -i AB094050.fasta -o blast.out -a 4
[username@scXXX ~]$ less blast.out
BLASTN 2.2.19 [Nov-02-2008]
Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer,
Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997),
"Gapped BLAST and PSI-BLAST: a new generation of protein database search
programs", Nucleic Acids Res. 25:3389-3402.
Query= gi|24106641|gb|AB094050.1|AB094050 Human enterovirus 71 gene
for capsid protein VP1, partial cds, strain:ON001/Hiroshima/97.
(716 letters)
Database: GenBank GSS - genome survey sequence: GenBank nucleic acid
sequence database Release 169
24,661,287 sequences; 15,958,250,844 total letters
Searching..................................................done
Score E
Sequences producing significant alignments: (bits) Value
gb|CL563910.1|CL563910 OB__Ba0026P04.f OB__Ba Oryza brachyantha ... 42 2.2
gb|CC309172.1|CC309172 TAM32-32A22_Sp6.1 TAM32 Gallus gallus gen... 42 2.2
gb|FH663950.1|FH663950 CHO_OF5010xg08f1.ab1 CHO_OF5 Nicotiana ta... 42 2.2
gb|ET695836.1|ET695836 CHO_OF027xc12f1.ab1 CHO_OF Nicotiana taba... 42 2.2
gb|ET580136.1|ET580136 fcg3x.229650l16 C. graminicola genomic se... 42 2.2 gb|CE451514.1|CE451514 tigr-gss-dog-17000319213386 Dog Library C... 40 8.8
gb|CC547136.1|CC547136 CH240_430M14.TARBAC13P2 CHORI-240 Bos tau... 40 8.8
gb|AG549971.1|AG549971 Mus musculus molossinus DNA, clone:MSMg01... 40 8.8
<以下省略>
. :