BLAST Reference
NCBI BLAST 파라미터/E-value 해석 레퍼런스
BLAST Reference 소개
BLAST 레퍼런스는 NCBI BLAST+(Basic Local Alignment Search Tool)의 종합 커맨드라인 치트시트로, 5가지 주요 프로그램을 다룹니다: blastn(뉴클레오타이드 vs 뉴클레오타이드), blastp(단백질 vs 단백질), blastx(6프레임 번역 뉴클레오타이드 vs 단백질), tblastn(단백질 vs 번역된 뉴클레오타이드 DB), PSI-BLAST(원거리 상동 서열 탐지를 위한 위치별 반복 검색, PSSM 생성).
핵심 파라미터 섹션에서는 E-value 임계값과 해석 가이드(<1e-50 매우 높은 상동성 ~ >0.01 낮은 유의성), 민감도와 속도 간 트레이드오프를 위한 word size 조정, 출력 형식 옵션(pairwise, tabular format 6의 qseqid/sseqid/pident/evalue/bitscore 등 커스텀 필드), max_target_seqs 제어, 멀티스레딩 설정을 상세히 다룹니다.
데이터베이스 관리에는 커스텀 뉴클레오타이드/단백질 DB 생성을 위한 makeblastdb, 서열 추출을 위한 blastdbcmd, NCBI DB(nt, nr, swissprot, refseq_rna, pdbaa) 다운로드를 위한 update_blastdb.pl이 포함됩니다. 고급 옵션으로는 알고리즘 변형(-task megablast/blastn/blastn-short), 갭 페널티, BLOSUM/PAM 치환 행렬, 저복잡도 필터링(-dust/-seg), 쿼리 영역 선택, NCBI 서버 원격 BLAST 실행이 있습니다.
주요 기능
- BLAST 5대 프로그램: blastn, blastp, blastx, tblastn, PSI-BLAST의 완전한 커맨드라인 구문과 실용 예제
- 핵심 파라미터: -evalue 임계값과 유의성 해석, -word_size 민감도 조정, -outfmt 6 커스텀 컬럼 지정, -max_target_seqs, -num_threads
- 데이터베이스 도구: makeblastdb(nucl/prot 커스텀 DB 생성), blastdbcmd(서열 추출/DB 정보), update_blastdb.pl(NCBI DB 다운로드)
- 표준 데이터베이스: nt, nr, swissprot, refseq_rna, pdbaa, est_human 각각의 사용 예제
- 고급 옵션: -task 변형(megablast, blastn-short, dc-megablast), 갭 페널티(-gapopen/-gapextend), 치환 행렬(BLOSUM45/62/80, PAM250), 저복잡도 필터링
- E-value 및 스코어링 해석: 비트 스코어 기준, E-value 계산 공식(E = K*m*n*e^(-lambda*S)), 동일성 백분율 범위, 쿼리 커버리지, HSP 개념
- -remote 플래그를 이용한 로컬 DB 설치 없이 원격 BLAST 실행
- 명령어 이름, 파라미터 플래그, 키워드로 검색 가능한 즉시 카테고리 필터링
자주 묻는 질문
blastn, blastp, blastx, tblastn의 차이점은 무엇인가요?
blastn은 뉴클레오타이드 쿼리를 뉴클레오타이드 DB에서 검색합니다. blastp는 단백질 쿼리를 단백질 DB에서 검색합니다. blastx는 뉴클레오타이드 쿼리를 6개 리딩 프레임으로 번역하여 단백질 DB에서 검색합니다(DNA 서열의 단백질 상동체 탐색에 유용). tblastn은 단백질 쿼리로 6프레임 번역된 뉴클레오타이드 DB를 검색합니다(미주석 유전자 발견에 유용).
BLAST 검색에 어떤 E-value 임계값을 사용해야 하나요?
목적에 따라 다릅니다: E-value <1e-50은 매우 높은 서열 상동성, 1e-50~1e-10은 기능 주석에 적합한 강한 상동성, 1e-10~1e-5는 관련 서열 탐지에 유용한 중간 수준, >0.01은 통계적 유의성이 낮습니다. 대부분의 상동성 검색에서 -evalue 1e-5가 합리적인 시작점입니다.
자체 서열로 커스텀 BLAST 데이터베이스를 어떻게 만드나요?
makeblastdb를 사용합니다: `makeblastdb -in sequences.fasta -dbtype nucl -out my_db -title "My Custom DB" -parse_seqids` (뉴클레오타이드), 또는 `-dbtype prot` (단백질). -parse_seqids 플래그는 ID별 서열 검색을 가능하게 합니다. 이후 `blastn -query query.fasta -db my_db`로 검색할 수 있습니다.
특정 컬럼을 포함한 탭 구분 BLAST 출력을 어떻게 얻나요?
outfmt 6에 커스텀 필드를 지정합니다: `blastn -query input.fasta -db nt -outfmt "6 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore"`. 주요 필드로는 qseqid(쿼리 ID), sseqid(대상 ID), pident(동일성 %), evalue, bitscore, qcovs(쿼리 커버리지), stitle(대상 제목)이 있습니다.
megablast와 일반 blastn의 차이는 무엇인가요?
megablast(blastn 기본값, 또는 -task megablast 명시)는 word size 28을 사용하여 높은 유사도의 서열을 빠르게 찾도록 최적화되었습니다. 일반 blastn(-task blastn)은 word size 11로 중간 수준 유사도 감지에 더 민감합니다. blastn-short(-task blastn-short)는 프라이머 같은 짧은 서열에 최적화되었습니다. dc-megablast는 비연속 워드 매칭용입니다.
BLAST 비트 스코어와 동일성 백분율은 어떻게 해석하나요?
비트 스코어 200 이상은 매우 강한 상동성, 80~200은 강한 상동성, 50~80은 중간, 50 미만은 약한 상동성을 나타냅니다. 동일성 백분율 70% 이상은 높은 상동성, 30~70%는 기능적 유사성이 있을 수도 없을 수도 있는 "twilight zone", 30% 미만은 매우 먼 관계입니다. E-value, 커버리지, 정렬 길이를 함께 고려해야 합니다.
PSI-BLAST란 무엇이며 언제 사용해야 하나요?
PSI-BLAST(Position-Specific Iterated BLAST)는 각 라운드에서 유의한 정렬로부터 위치별 스코어링 행렬(PSSM)을 구축하는 반복 검색을 수행합니다. 일반 blastp로 원거리 상동체를 감지할 수 없을 때 사용합니다: `psiblast -query protein.fasta -db nr -num_iterations 5 -out_pssm result.pssm -evalue 0.001`. 단백질 패밀리의 먼 진화적 관계를 감지하는 데 특히 강력합니다.
이 BLAST 레퍼런스는 무료인가요?
네, 이 BLAST 명령어 레퍼런스는 계정, 다운로드, 사용 제한 없이 완전히 무료입니다. 생물정보학자, 유전체 연구자, 생물학 학생을 위한 브라우저 기반 검색 가능한 치트시트입니다. BLAST 자체를 실행하려면 NCBI BLAST+를 로컬 설치하거나 NCBI 웹 인터페이스를 사용해야 합니다. 이 레퍼런스는 올바른 명령어 구문과 파라미터를 빠르게 찾는 데 도움을 줍니다.