AlphaFold DB Reference
AlphaFold 단백질 구조 예측 DB/pLDDT 해석 레퍼런스
AlphaFold DB Reference 소개
AlphaFold DB 레퍼런스는 2억 개 이상의 예측 단백질 구조를 포함하는 DeepMind의 혁신적 자원인 AlphaFold Protein Structure Database의 검색 가능한 가이드입니다. 구조 생물학자, 전산 화학자, 생물정보학 연구자가 AlphaFold 예측을 효과적으로 활용하는 데 필요한 모든 것을 다룹니다. 신뢰도 메트릭(pLDDT, PAE, pTM, ipTM) 이해부터 REST API 구조 접근, 프로테옴 규모 데이터셋 다운로드, 분자 그래픽스 소프트웨어 시각화까지 포함합니다.
이 레퍼런스는 6가지 카테고리로 정리되어 있습니다: DB 개요(데이터베이스 접근, AF-{UniProt}-F1 식별자 형식, 실험 구조 비교, UniProt 통합, 활용 사례), 신뢰도 메트릭(색상 코딩이 있는 잔기별 pLDDT 점수, PAE 행렬, pTM 점수, 다량체 ipTM, 본질적 무질서 영역 식별), 파일 형식(B-factor 컬럼에 pLDDT가 저장된 PDB, 품질 메트릭이 포함된 mmCIF, PAE JSON 행렬), API(REST 엔드포인트, UniProt 접수번호 조회, FTP 대량 다운로드), 실행/설치(Google Colab, 로컬 AlphaFold2, ColabFold, AlphaFold-Multimer, AlphaFold3), 시각화(PyMOL pLDDT 색상화, ChimeraX 렌더링, PAE 히트맵, 도메인 경계 분석).
각 항목에는 작업 수행에 필요한 정확한 URL, 명령어, 코드 스니펫이 제공됩니다. UniProt 접수번호로 예측 구조 검색, 도메인 간 배향 신뢰도 판단을 위한 PAE 행렬 해석, 빠른 예측을 위한 Google Colab ColabFold 실행, GPU 하드웨어의 로컬 AlphaFold2 설정, PyMOL에서 pLDDT 기반 구조 색상화 등 여러 문서를 탐색하지 않고도 정확한 구문과 해석 가이드라인을 제공합니다.
주요 기능
- pLDDT(잔기별, 0-100 스케일, 파랑/하늘/노랑/주황 색상 코딩), PAE(잔기 쌍 위치 오차, 앙스트롬), pTM(전체 토폴로지), ipTM(다량체 계면 신뢰도) 신뢰도 메트릭 해석 가이드
- PDB(B-factor 컬럼에 pLDDT 저장), mmCIF(품질 메트릭 주석), PAE JSON(예측 정렬 오차 행렬과 최대 오차값) 파일 형식 사양
- UniProt 접수번호로 구조 메타데이터 조회, 직접 URL 패턴으로 PDB/CIF/PAE 파일 다운로드, FTP로 전체 프로테옴 대량 다운로드 REST API 엔드포인트 레퍼런스
- Google Colab(MMseqs2 기반 MSA, 단백질당 약 10분), 로컬 설치(NVIDIA GPU, 약 3TB 데이터베이스), ranking confidence 공식이 포함된 AlphaFold-Multimer 복합체 예측을 위한 ColabFold/AlphaFold2 설정 가이드
- AlphaFold Server를 통한 단백질-단백질, 단백질-DNA/RNA, 단백질-리간드 복합체, 이온, 변형 잔기를 포함하는 AlphaFold3 기능 레퍼런스
- PyMOL(spectrum b 색상화), ChimeraX(bfactor palette alphafold), Python matplotlib PAE 히트맵 생성과 컬러맵을 활용한 분자 시각화 워크플로우
- PAE 행렬 블록 패턴을 사용한 도메인 경계 분석: 잘 정의된 도메인(낮은 블록 내 PAE)과 불확실한 도메인 간 배향(높은 블록 간 PAE) 식별
- 낮은 pLDDT 점수(50 미만), 이차 구조 없는 확장 구조, 높은 PAE 값을 예측 실패가 아닌 구조 생물학 지표로 해석하는 본질적 무질서 영역(IDR) 식별
자주 묻는 질문
pLDDT 점수는 무엇을 의미하고 색상 코딩은 어떻게 해석하나요?
pLDDT(predicted Local Distance Difference Test)는 0에서 100까지의 잔기별 신뢰도 점수입니다. 90 이상(파란색)은 백본과 측쇄가 신뢰할 수 있는 매우 높은 신뢰도입니다. 70-90(하늘색)은 백본이 잘 예측되었음을 의미합니다. 50-70(노란색)은 접힘 토폴로지만 정확할 수 있는 낮은 신뢰도입니다. 50 미만(주황색)은 예측 오류가 아닌 실제로 안정적 구조가 없는 본질적 무질서 영역(IDR)을 나타내는 경우가 많습니다.
PAE(Predicted Aligned Error) 행렬은 어떻게 읽나요?
PAE 행렬은 N×N 그리드로, 항목 (i,j)는 잔기 i에 구조를 정렬했을 때 잔기 j의 예상 위치 오차(앙스트롬)를 나타냅니다. 두 잔기 간 낮은 값(5 앙스트롬 미만)은 상대적 위치가 높은 신뢰도로 예측되었음을 의미합니다. 잘 정의된 도메인을 나타내는 진한 파란색 대각선 블록과 불확실한 도메인 간 배향을 나타내는 밝은/빨간색 비대각 영역을 찾으세요. PAE는 도메인 간 배치가 의미 있는지 평가하는 데 핵심적입니다.
pTM과 ipTM 점수의 차이점은 무엇인가요?
pTM(predicted TM-score)은 단일 사슬 예측의 전체 토폴로지 정확도를 추정하며, 0.8 이상은 전체 접힘에 대한 높은 신뢰도를 나타냅니다. ipTM(interface predicted TM-score)은 AlphaFold-Multimer 전용으로 단백질-단백질 계면의 신뢰도를 평가합니다. 다량체 예측의 ranking confidence는 0.8*ipTM + 0.2*pTM으로 계산됩니다. 두 메트릭 모두 약물 설계나 상호작용 분석 같은 후속 응용에 예측 구조가 충분히 신뢰할 수 있는지 판단하는 데 도움이 됩니다.
REST API를 사용하여 AlphaFold 구조를 어떻게 다운로드하나요?
https://alphafold.ebi.ac.uk/api/prediction/{UniProt_접수번호}로 API를 조회합니다(예: p53의 경우 /api/prediction/P04637). JSON 응답에 PDB, mmCIF, PAE JSON 파일의 직접 다운로드 URL이 포함됩니다. 파일 URL을 직접 구성할 수도 있습니다: PDB는 https://alphafold.ebi.ac.uk/files/AF-P04637-F1-model_v4.pdb이며, mmCIF는 .cif로, PAE 데이터는 -predicted_aligned_error_v4.json으로 대체합니다.
로컬 GPU 하드웨어 없이 AlphaFold를 빠르게 실행하려면?
Google Colab에서 ColabFold를 사용하세요. MMseqs2 기반 MSA 생성(대용량 데이터베이스 다운로드 불필요)과 AlphaFold2 예측을 결합합니다. pip install colabfold[alphafold]로 설치하고 colabfold_batch input.fasta output_dir/로 실행합니다. 일반적인 단일 사슬 단백질은 Colab GPU에서 약 10분 소요됩니다. 가장 간단한 방법은 github.com/sokrypton/ColabFold의 ColabFold 노트북을 직접 사용하는 것으로, 서열 입력과 결과 시각화를 위한 GUI 인터페이스를 제공합니다.
PDB 파일이 B-factor 컬럼에 pLDDT를 저장하는 이유는?
AlphaFold는 예측 구조에 실험적 B-factor가 없으므로 PDB 파일의 B-factor(온도 인자) 컬럼을 pLDDT 신뢰도 점수 저장에 재활용합니다. ATOM 레코드의 마지막 숫자 72.50은 결정학적 열운동이 아닌 pLDDT=72.50을 나타냅니다. B-factor를 해석하는 분석 도구 사용 시 이 값을 신뢰도 점수로 처리해야 하므로 기억해야 합니다. mmCIF 형식은 전용 _ma_qa_metric 필드에 pLDDT를 저장합니다.
AlphaFold3는 AlphaFold2와 무엇이 다른가요?
AlphaFold3는 단일 단백질과 단백질 복합체를 넘어 단백질-DNA 복합체, 단백질-RNA 복합체, 단백질-리간드 상호작용, 이온, 변형 잔기까지 예측을 확장합니다. AlphaFold2의 구조 모듈 대신 확산 기반 아키텍처를 사용합니다. AlphaFold Server(golgi.sandbox.google.com)를 통해 접근 가능합니다. AlphaFold2로는 불가능했던 전사인자-DNA 결합, 리보뉴클레오프로틴 복합체, 약물-표적 상호작용 모델링이 가능합니다.
PyMOL에서 pLDDT 색상으로 AlphaFold 구조를 시각화하려면?
PDB 파일을 "load AF-P04637-F1-model_v4.pdb"로 로드한 후 "spectrum b, blue_white_red, minimum=50, maximum=100"으로 pLDDT 색상화를 적용합니다. 높은 신뢰도(pLDDT 100 근처)는 파란색, 낮은 신뢰도는 빨간색으로 매핑됩니다. ChimeraX에서는 "open alphafold:P04637" 후 "color bfactor palette alphafold"로 표준 AlphaFold 파랑-하늘-노랑-주황 팔레트를 적용합니다. PAE 시각화는 Python matplotlib로 JSON을 로드하고 predicted_aligned_error 배열을 추출하여 plt.imshow로 표시합니다.