🌐 English|한국어

분석 가이드

이 가이드는 PhyloForester에서 계통발생 분석을 수행하는 자세한 작업 흐름을 제공해요.

개요

PhyloForester는 계통수 재구성을 위한 세 가지 주요 접근 방식을 지원해요:

  1. 절약법 (Parsimony): 형질 상태 변화를 최소화하는 계통수를 찾아요

  2. 최대우도법 (Maximum Likelihood): 관찰된 데이터의 확률을 최대화하는 계통수를 찾아요

  3. 베이지안 추론 (Bayesian Inference): 계통수의 사후 확률 분포를 추정해요

각 방법은 고유한 장점이 있으며 서로 다른 데이터셋과 연구 질문에 적합해요.

분석 방법 선택하기

절약법 (Parsimony)

적합한 경우:

  • 형태학적 데이터

  • 소규모에서 중규모 데이터셋 (분류군 100개 미만)

  • 불연속 형질 상태

  • 교육 목적

장점:

  • 빠른 계산 속도

  • 모델 가정이 필요 없음

  • 해석이 쉬움

한계:

  • 가지 (branch)마다 동일한 진화 속도를 가정함

  • 긴 가지에서 비일관적일 수 있음

  • 지지도를 위한 통계적 프레임워크가 없음

최대우도법 (Maximum Likelihood)

적합한 경우:

  • 분자 데이터 (DNA/단백질 서열)

  • 대규모 데이터셋 (분류군 100개 이상)

  • 모델 기반 추론

장점:

  • 통계적 프레임워크

  • 모델의 유연성

  • 부트스트랩 지지도 값

한계:

  • 계산 집약적

  • 모델 선택이 필요함

  • 형태학에 덜 적합함

베이지안 추론 (Bayesian Inference)

적합한 경우:

  • 복잡한 진화 모델

  • 사전 정보 통합

  • 불확실성 정량화

장점:

  • 완전한 확률론적 프레임워크

  • 사후 확률

  • 복잡한 모델을 잘 처리함

한계:

  • 매우 계산 집약적

  • 수렴 평가가 필요함

  • 사전 분포 명시가 필요함

절약법 작업 흐름

1단계: 데이터 준비

데이터 행렬이 다음을 충족하는지 확인하세요:

  • 명확한 형질 정의가 있음

  • 최소한의 결측 데이터 (?)

  • 적절한 비적용 코딩 (-)

2단계: 절약법 분석 만들기

  1. 데이터 행렬을 마우스 오른쪽 버튼 클릭 → 새 분석Parsimony

  2. 매개변수를 설정하세요:

    Replicates: 100
    Hold: 1000
    TBR: Yes (tree bisection-reconnection)
    Mult: 10 (random addition sequences)
    

3단계: 분석 실행

  1. **분석 시작**을 클릭하세요

  2. TNT가 휴리스틱 탐색을 수행해요

  3. 진행률이 백분율로 표시돼요

  4. 일반적인 실행 시간: 수 초에서 수 분

4단계: 결과 검토

로그 탭에서 다음을 확인하세요:

  • 발견된 계통수의 개수

  • 계통수 길이 (총 형질 변화 수)

  • 일관성 지수 (Consistency Index, CI)

  • 유지 지수 (Retention Index, RI)

계통수 탭:

  • 엄격 합의 계통수 (strict consensus tree) 표시

  • 부트스트랩 값 (요청한 경우)

  • 가지 길이 (단계 수)

최대우도법 작업 흐름

1단계: 데이터 준비

DNA 서열의 경우:

  • 정렬된 서열이 필요함

  • IUPAC 모호성 코드 지원

  • 간격을 결측 (?) 또는 5번째 상태로 코딩

2단계: 모델 선택

IQTree가 최적 모델을 자동으로 감지할 수 있어요:

  1. 모델 자동 감지 활성화

  2. IQTree가 모든 표준 모델을 테스트해요

  3. AIC/BIC로 최적 모델이 선택돼요

또는 모델을 수동으로 지정하세요:

  • JC69: Jukes-Cantor (동일한 속도)

  • K80/K2P: Kimura 2-parameter (전이/전환)

  • HKY: Hasegawa-Kishino-Yano

  • GTR: General time reversible (매개변수가 가장 많음)

3단계: 최대우도법 분석 만들기

  1. 데이터 행렬을 마우스 오른쪽 버튼 클릭 → 새 분석Maximum Likelihood

  2. 설정하세요:

    Model: Auto-detect
    Bootstrap: 1000
    Algorithm: Standard
    

4단계: 분석 실행

  1. **분석 시작**을 클릭하세요

  2. 모델 테스트 단계 (자동 감지인 경우)

  3. 계통수 탐색 단계

  4. 부트스트랩 단계 (활성화된 경우)

  5. 일반적인 실행 시간: 수 분에서 수 시간

5단계: 결과 해석

최적 계통수:

  • 최대우도법 계통수 위상

  • 가지 길이 (염기 자리당 치환 수)

  • 로그 우도 점수

부트스트랩 지지도:

  • 마디 (node)에 0-100의 값

  • ≥70은 일반적으로 유의미한 것으로 간주돼요

  • ≥95는 강한 지지도

베이지안 작업 흐름

1단계: 데이터 준비

최대우도법과 유사하지만 베이지안이 더 유연해요:

  • 복잡한 파티션을 처리할 수 있음

  • 형태학 + 분자 데이터 결합

  • 연대 측정을 위한 시계 모델

2단계: 사전 분포 설정

치환 모델:

  • DNA의 경우 주로 GTR+Γ 사용

  • 형태학의 경우 Mk 모델

계통수 사전 분포:

  • 균등 분포 (기본값)

  • 출생-사망 과정 (birth-death process)

  • Yule 모델

가지 길이 사전 분포:

  • 지수 분포

  • 복합 디리클레 분포

3단계: MCMC 설정

  1. 데이터 행렬을 마우스 오른쪽 버튼 클릭 → 새 분석Bayesian

  2. 매개변수를 설정하세요:

    Generations: 1,000,000
    Sample frequency: 1000
    Burnin: 0.25 (25%)
    Chains: 4 (2 heated)
    

테스트용 짧은 실행:

Generations: 100,000
Sample: 100
Burnin: 0.25

표준 실행:

Generations: 10,000,000
Sample: 1000
Burnin: 0.25

4단계: 분석 실행

  1. **분석 시작**을 클릭하세요

  2. MrBayes가 MCMC 체인을 실행해요

  3. 모니터링: - 분할 빈도의 평균 표준 편차 (0.01에 접근해야 함) - 잠재적 척도 감소 인자 (1.0에 접근해야 함)

  4. 일반적인 실행 시간: 수 시간에서 수 일

5단계: 수렴 평가

**로그**에서 다음을 확인하세요:

  • ASDSF < 0.01: 체인이 수렴함

  • ESS > 200: 충분한 샘플링

  • 안정적인 로그 우도 추적

수렴하지 않은 경우:

  • 더 많은 세대 실행

  • 샘플 빈도 증가

  • 모델 단순화

6단계: 사후 분포 검토

합의 계통수:

  • 50% 다수결 합의

  • 마디 (node)의 사후 확률

  • ≥0.95는 일반적으로 강한 지지도로 간주돼요

신뢰 집합:

  • 95% 신뢰 계통수 집합

  • 위상 불확실성 정량화

형질 매핑

계통수를 얻은 후 형질을 매핑하여 진화를 시각화하세요.

Fitch 절약법 매핑

PhyloForester는 조상 상태 재구성을 위해 Fitch 알고리즘을 사용해요.

  1. 계통수가 있는 분석을 열어요

  2. 계통수 탭에서 계통수를 선택하세요

  3. **형질 매핑**을 클릭하세요

  4. 목록에서 형질을 선택하세요

  5. 계통수에 표시됨: - 마디 (node)의 조상 상태 - 가지 (branch)의 상태 변화 (공유 파생 형질, synapomorphy) - 상태별 색상

매핑된 계통수 해석

  • 마디 (node) 레이블: 재구성된 조상 상태

  • 가지 (branch) 주석: 형질 변화

  • 색상: 다른 상태

  • 모호함: 여러 최적 재구성이 표시됨

사용 사례:

  • 진화적 전환 확인

  • 상동성 (평행/수렴 진화) 위치 파악

  • 형태학적 가설 지원

분석 비교

방법 간 결과를 비교하는 것이 유용해요.

위상 비교

  1. 동일한 데이터 행렬에 여러 분석 유형 실행

  2. 계통수 위상을 시각적으로 비교

  3. 일치/불일치 영역 기록

주요 질문:

  • 방법들이 주요 분지군 (clade)에서 일치하나요?

  • 위상이 어디에서 다른가요?

  • 차이가 약하게 지지되는 영역에 있나요?

지지도 값 비교

  • 절약법: 부트스트랩 (실행한 경우)

  • 최대우도법: 부트스트랩 백분율

  • 베이지안: 사후 확률

일반적으로:

  • 베이지안 사후 확률 ≥ 0.95 ≈ 최대우도법 부트스트랩 ≥ 70%

  • 베이지안은 더 높은 값을 주는 경향이 있어요

  • 최대우도법 부트스트랩이 더 보수적이에요

분석 문제 해결

분석이 시작되지 않음

확인 사항:

  1. 외부 소프트웨어 경로가 올바르게 설정됨 (환경설정)

  2. 소프트웨어 실행 파일에 권한이 있음

  3. 데이터 행렬이 비어있지 않음

  4. 이름에 특수 문자가 없음

분석이 즉시 실패함

확인 사항:

  1. 오류 메시지에 대한 로그 탭

  2. 데이터 행렬 형식이 올바름

  3. 결측 데이터가 과도하지 않음

  4. 형질 정의가 유효함

분석이 계속 실행됨

베이지안의 경우:

  • 며칠이 걸릴 수 있음 - 수렴 진단을 확인하세요

  • 테스트를 위해 세대 수를 줄이는 것을 고려하세요

최대우도법의 경우:

  • 대규모 데이터셋은 시간이 걸려요

  • 임시로 부트스트랩 반복 수를 줄이는 것을 고려하세요

절약법의 경우:

  • 일반적으로 빠름; 느린 경우 Hold 매개변수를 줄이세요

낮은 지지도 값

일반적인 이유:

  • 데이터 부족

  • 상충하는 신호

  • 모델 오지정

  • 더 많은 부트스트랩 반복이 필요함

해결 방법:

  • 더 많은 형질/분류군 추가

  • 다른 모델 시도

  • 반복 수 증가

  • 데이터 분할

모범 사례

데이터 준비

  1. 형질을 신중하게 정의하세요

  2. 결측 데이터를 최소화하세요

  3. 분류군 이름의 오타를 확인하세요

  4. 정렬을 검증하세요 (서열의 경우)

매개변수 선택

  1. 기본값/권장값으로 시작하세요

  2. 먼저 빠른 테스트 실행을 하세요

  3. 최종 분석에서는 엄격성을 높이세요

  4. 사용된 모든 매개변수를 문서화하세요

품질 관리

  1. 항상 로그 파일을 확인하세요

  2. 수렴을 확인하세요 (베이지안)

  3. 여러 실행을 비교하세요

  4. 지지도 값을 비판적으로 검토하세요

출판

출판할 때 다음을 보고하세요:

  • 소프트웨어 버전

  • 모든 매개변수 설정

  • 실행 통계 (길이, 우도 등)

  • 지지도 측정값

  • 수렴 진단 (베이지안)

다음 단계

  • 일반적인 PhyloForester 사용법은 :doc:`user_guide`를 참고하세요

  • 특정 문제는 :doc:`troubleshooting`을 참고하세요

  • 고급 사용자 정의는 :doc:`developer_guide`를 참고하세요