snpEff/VEP Reference
변이 효과 예측/SIFT/PolyPhen/CADD 점수 레퍼런스
snpEff/VEP Reference 소개
snpEff & VEP 레퍼런스는 생물정보학과 임상 유전체학에서 사용되는 유전체 변이 주석 및 효과 예측 도구에 대한 검색 가능한 가이드입니다. GRCh38.105 등 게놈 데이터베이스를 기반으로 VCF 파일에 주석을 추가하는 snpEff 명령어를 다루며, 파이프(|) 구분 ANN 필드 구조(변이 유형, 영향도, 유전자명, 전사체 ID, 코딩 DNA 변화(c.)와 단백질 변화(p.)의 HGVS 표기법)를 상세히 설명합니다.
이 레퍼런스는 변이 효과를 4단계 영향도로 분류합니다. HIGH(frameshift_variant, stop_gained, splice_donor_variant), MODERATE(missense_variant, inframe_deletion), LOW(synonymous_variant, splice_region_variant), MODIFIER(intron_variant, intergenic_region)의 구체적인 변이 유형을 제공합니다. 기능 예측 점수로 SIFT(0.05 미만 Damaging), PolyPhen-2(HumDiv/HumVar 모델), 통합 병원성 점수인 CADD(PHRED 스케일), REVEL(13개 도구 앙상블), DANN(딥러닝 기반)도 다룹니다.
실무 워크플로우 지원을 위해 Ensembl VEP 명령어(CADD, SIFT, PolyPhen 플러그인 연동, --pick 옵션, REST API, 결과 심각도 계층), SnpSift 명령어(영향도/대립유전자 빈도 기반 VCF 필터링, 필드 추출, dbSNP/dbNSFP 주석, ClinVar 임상 의미 데이터 통합)를 포함합니다.
주요 기능
- 게놈 데이터베이스 관리(다운로드, 목록, 주석)와 통계 생성을 포함한 snpEff 주석 명령어
- snpEff VCF 출력의 파이프 구분 ANN 필드 구조 해석 가이드
- HIGH/MODERATE/LOW/MODIFIER 4단계 영향도 분류와 전체 변이 효과 유형 목록
- HumDiv 및 HumVar 모델 임계값을 포함한 SIFT, PolyPhen-2 점수 해석법
- CADD PHRED 스케일 점수 가이드 - 백분위 기준값(PHRED 20 = 상위 1%, PHRED 25 = 상위 0.3%)
- 플러그인 연동, --pick 옵션, REST API, 결과 심각도 계층을 포함한 Ensembl VEP 명령어 레퍼런스
- 영향도 기반 및 빈도 기반 VCF 필터링과 필드 추출을 위한 SnpSift 필터 표현식
- ClinVar 임상 의미와 dbNSFP 기능 예측 주석 추가를 위한 통합 명령어
자주 묻는 질문
snpEff와 VEP의 차이점은 무엇인가요?
snpEff와 VEP 모두 유전체 변이에 기능적 효과를 예측하여 주석을 추가하지만, 구현 방식이 다릅니다. snpEff는 자체 유전자 모델 데이터베이스를 사용하는 Java 기반 독립 도구로, VCF 파일의 ANN 필드에 주석을 출력합니다. VEP는 Ensembl이 관리하며 광범위한 플러그인 통합(CADD, SIFT, PolyPhen)을 지원하고 명령줄과 REST API 인터페이스를 제공합니다. 많은 파이프라인이 포괄적인 주석을 위해 두 도구를 모두 사용합니다.
snpEff 영향도 레벨은 어떻게 해석하나요?
HIGH 영향도 변이(frameshift, stop_gained, splice_donor)는 단백질 절단이나 기능 상실을 유발할 가능성이 높습니다. MODERATE 변이(missense, inframe_deletion)는 단백질을 변경하지만 기능에 미치는 영향은 불확실합니다. LOW 변이(synonymous, splice_region)는 단백질 기능 변화 가능성이 낮습니다. MODIFIER 변이(intron, intergenic)는 비코딩 영역에 위치하여 기능적 영향이 불확실합니다.
SIFT 점수 0.02는 무엇을 의미하나요?
SIFT 점수 0.05 미만은 "Damaging"으로 분류되어, 종간 서열 보존성을 기반으로 해당 아미노산 치환이 단백질 기능에 영향을 미칠 것으로 예측됩니다. 0.02는 기능적으로 해로울 가능성이 높다는 높은 신뢰도를 나타냅니다. 0.05 이상은 "Tolerated"로 분류됩니다. SIFT4G는 게놈 규모 분석에 최적화된 개선 버전입니다.
CADD 점수를 변이 우선순위 결정에 어떻게 사용하나요?
CADD PHRED 스케일 점수는 유해도에 따라 변이 순위를 매깁니다. PHRED 10은 상위 10%, 20은 상위 1%, 25는 상위 0.3%, 30은 상위 0.1% 유해 변이를 의미합니다. 임상 변이 필터링에는 PHRED 15~20이 일반적인 출발점으로 사용되지만, 최적 기준값은 분석 목적에 따라 달라집니다.
PolyPhen-2 HumDiv와 HumVar의 차이점은 무엇인가요?
HumDiv는 인간 단백질과 근연 상동체 간의 진화적 분기를 학습하여 희귀 대립유전자와 멘델 질환 변이 평가에 적합합니다. HumVar는 알려진 질병 유발 돌연변이와 일반 다형성을 학습하여 임상 진단에서 병원성 변이 구별에 더 적합합니다. 점수 임계값은 동일합니다: >0.908 아마도 유해, 0.446~0.908 가능성 있는 유해, <0.446 양성.
SnpSift로 snpEff 주석이 달린 VCF를 어떻게 필터링하나요?
SnpSift filter에 표현식을 사용합니다. 예: java -jar SnpSift.jar filter "(ANN[*].IMPACT = 'HIGH') & (AF < 0.01)"로 대립유전자 빈도 1% 미만의 HIGH 영향도 변이를 선택합니다. extractFields로 특정 열을 추출할 수 있습니다: java -jar SnpSift.jar extractFields annotated.vcf CHROM POS REF ALT "ANN[0].GENE" "ANN[0].IMPACT" "ANN[0].HGVS_P".
REVEL 점수란 무엇이며 언제 사용해야 하나요?
REVEL은 SIFT, PolyPhen, MutationAssessor 등 13개 도구를 앙상블하여 미스센스 변이의 병원성을 예측하는 통합 점수입니다. 0~1 범위이며, 0.75 이상은 병원성 가능성을 시사합니다. 여러 예측 방법의 장점을 활용하므로 개별 도구보다 성능이 우수한 경우가 많습니다.
ClinVar 주석을 snpEff 결과에 어떻게 통합하나요?
SnpSift annotate를 사용합니다: java -jar SnpSift.jar annotate clinvar.vcf.gz annotated.vcf > clinvar_annotated.vcf. 이 명령은 임상 의미 분류(Pathogenic, Likely_pathogenic, Benign, Likely_benign, Uncertain_significance)를 담은 CLNSIG 필드를 추가합니다. SnpSift dbnsfp를 사용하면 dbNSFP 기능 예측 점수도 동시에 추가할 수 있습니다.