liminfo

Galaxy Platform Reference

Galaxy 워크플로/도구/데이터타입 레퍼런스

25개 결과

Galaxy Platform Reference 소개

Galaxy 플랫폼 레퍼런스는 접근 가능하고 재현 가능한 계산 연구를 위한 오픈소스 웹 기반 시스템인 Galaxy 생물정보학 플랫폼의 종합 빠른 참조 가이드입니다. 시각적 편집기를 이용한 워크플로 구성, 모듈식 파이프라인 설계를 위한 서브워크플로, 데이터셋 미리보기와 워크플로 다이어그램이 포함된 Markdown 기반 실행 보고서까지 Galaxy 생태계 전체를 다룹니다.

이 레퍼런스는 Galaxy에서 사용 가능한 주요 생물정보학 도구를 분석 유형별로 정리합니다: NGS QC 도구(FastQC, MultiQC, Trimmomatic, Cutadapt), 정렬 도구(BWA-MEM2, HISAT2, STAR, Bowtie2), RNA-seq 분석(featureCounts, DESeq2, StringTie, Salmon), ChIP-seq 분석(MACS2, deepTools, HOMER), 변이 분석(FreeBayes, SnpEff, SnpSift, GEMINI). 각 도구 항목에는 입출력 형식, 주요 매개변수, 실용적 사용 예제가 포함됩니다.

도구 외에도 Galaxy 데이터 관리(히스토리, 데이터셋 컬렉션, FTP와 SRA 포함 업로드 방법), 생물정보학 데이터 형식(FASTQ, BAM/SAM, VCF/BCF, BED/GFF/GTF), REST API와 BioBlend Python 라이브러리를 통한 프로그래밍 접근, 서버 관리(galaxy.yml 설정, SLURM 작업 스케줄링, Tool Shed 설치), RNA-seq, ChIP-seq, WGS 변이 탐지 파이프라인의 완전한 워크플로 예제를 다룹니다.

주요 기능

  • 서브워크플로, 조건부 실행, 데이터셋 디렉티브가 포함된 Markdown 보고서 등 Galaxy 워크플로 편집기 기능 문서화
  • NGS 분석 도구 수록: FastQC, MultiQC, Trimmomatic, Cutadapt, BWA-MEM2, HISAT2, STAR, Bowtie2, featureCounts, DESeq2, Salmon
  • ChIP-seq 파이프라인 도구 포함: MACS2 피크 탐지(FDR 필터링), deepTools bamCoverage/computeMatrix/plotHeatmap, HOMER 모티프 분석
  • 변이 분석 도구 문서화: FreeBayes(베이지안 변이 탐지), SnpEff(변이 주석), SnpSift(VCF 필터링), GEMINI(가족 기반 필터링)
  • 생물정보학 데이터 형식 설명: FASTQ(Phred+33/+64), BAM/SAM 인덱싱, VCF/BCF 변이 형식, BED/GFF/GTF 게놈 구간
  • BioBlend Python API 예제 제공: 파일 업로드, 도구 실행, 워크플로 호출, 실행 상태 확인을 프로그래밍으로 수행
  • 서버 관리 수록: galaxy.yml 설정, SLURM/로컬 러너용 job_conf.yml, Tool Shed 설치, Planemo 도구 개발
  • RNA-seq 차등발현, ChIP-seq 피크 분석, WGS 변이 탐지(GATK) 등 단계별 워크플로 예제 포함

자주 묻는 질문

이 Galaxy 레퍼런스는 어떤 분석 유형을 다루나요?

5가지 주요 분석 범주를 다룹니다: NGS 품질 관리(FastQC, MultiQC, Trimmomatic), 리드 정렬(BWA-MEM2 DNA-seq용, HISAT2/STAR RNA-seq용, Bowtie2 ChIP-seq용), RNA-seq 차등발현(featureCounts, DESeq2, StringTie, Salmon), ChIP-seq 피크 분석(MACS2, deepTools, HOMER), 변이 탐지/주석(FreeBayes, SnpEff, SnpSift, GEMINI). 각 파이프라인의 완전한 워크플로 예제도 포함합니다.

Galaxy에서 워크플로를 어떻게 만들고 실행하나요?

Workflow > Create New Workflow로 이동하여 캔버스에 도구를 드래그 앤 드롭하고, 도구 출력과 입력 사이에 연결선을 그리고, 매개변수를 설정한 후 저장하고 실행합니다. History > Extract Workflow로 기존 분석 이력에서 워크플로를 추출할 수도 있으며, 모듈식 파이프라인 설계를 위해 서브워크플로로 중첩할 수도 있습니다.

BioBlend이란 무엇이며 Galaxy와 어떻게 사용하나요?

BioBlend은 Galaxy REST API에 프로그래밍으로 접근할 수 있는 Python 라이브러리입니다. GalaxyInstance(url, key)로 연결하고, 히스토리 목록 조회 및 생성, 파일 업로드, 특정 입력으로 도구 실행, 워크플로 호출, 실행 상태 확인 등의 코드 예제가 포함되어 있습니다. User > Preferences > Manage API Key에서 API 키를 생성해야 합니다.

어떤 생물정보학 데이터 형식을 다루나요?

FASTQ(Phred+33/+64 품질 인코딩 시퀀싱 리드), BAM/SAM(자동 인덱싱이 되는 정렬된 리드), VCF/BCF(INFO/FORMAT 필드가 있는 변이 정보), BED/GFF/GTF(게놈 구간 및 주석)를 다룹니다. 각 형식에 대해 Galaxy 전용 처리 방법, 지원되는 변환, 시각화 옵션이 포함되어 있습니다.

Galaxy 서버의 작업 스케줄링은 어떻게 설정하나요?

job_conf.yml에서 러너(로컬, SLURM)와 실행 환경을 정의합니다. 파티션, 메모리, CPU 할당 같은 네이티브 사양으로 SLURM 대상을 구성하고, 계산 요구 사항에 따라 특정 도구를 적절한 환경에 할당할 수 있습니다.

RNA-seq 워크플로 예제는 무엇을 포함하나요?

완전한 RNA-seq 워크플로는 다음으로 구성됩니다: 1) FastQC와 MultiQC로 QC, 2) Cutadapt로 어댑터/품질 트리밍, 3) HISAT2 또는 Salmon으로 정렬, 4) featureCounts로 정량, 5) DESeq2로 차등발현 분석, 6) 화산 플롯과 히트맵으로 시각화, 7) goseq로 GO 기능 분석. Galaxy Training Network 튜토리얼도 안내합니다.

데이터셋 컬렉션은 어떻게 작동하나요?

데이터셋 컬렉션은 여러 파일을 하나의 단위로 묶어 배치 처리합니다. List(파일 목록), Paired(Paired-end FASTQ 쌍), List of Pairs(여러 샘플의 paired FASTQ) 3가지 유형이 있습니다. 여러 데이터셋을 선택하고 Build Dataset List 또는 Build List of Dataset Pairs를 클릭하여 생성합니다. 워크플로에서 동일한 도구를 여러 파일에 동시에 실행할 수 있습니다.

Galaxy Tool Shed에서 도구를 어떻게 설치하나요?

Admin > Install or Uninstall Tool Shed tools로 이동하여 원하는 도구를 검색하고, 선택 후 대상 도구 패널 섹션을 지정하여 Install to Galaxy를 클릭합니다. 의존성은 conda나 컨테이너를 통해 자동 해결됩니다. 커스텀 도구 개발을 위해 planemo tool_init(스캐폴딩), planemo lint(검증), planemo test(자동화 테스트) 명령도 안내합니다.