본문으로 이동

대치법 (유전학)

위키백과, 우리 모두의 백과사전.

유전학에서 대치법(imputation)은 관찰되지 않은 유전자형통계적 추론이다.[1] 이것은 개체군 내의 알려진 유전자형을 사용하여 달성되는데, 예를 들어 인간의 햅맵 프로젝트 또는 1000 유전체 프로젝트를 통해 관심 특성(예: 질병)과 실험적으로 유형화되지 않았지만 유전자형이 통계적으로 추론("대치")된 유전적 변이 사이의 연관성을 테스트할 수 있다.[2] 유전자형 대치는 일반적으로 가장 흔한 유전적 변이의 종류인 SNP에서 수행된다.

따라서 유전자형 대치는 전유전체 연관 분석에서 원인이 되는 변이의 위치를 좁히는 데 크게 도움이 되는 것으로 보이며, 이는 SNP 밀도를 증가시키고(유전체 크기는 일정하게 유지되지만 유전적 변이의 수가 증가한다) 따라서 두 인접 SNP 사이의 거리를 줄이기 때문이다.

맥락

[편집]

유전 역학양적유전학에서 연구자들은 개체 간 변이가 관심 특성의 변이와 관련된 유전체 위치를 식별하는 것을 목표로 한다. 따라서 이러한 연구는 일련의 개체들의 유전적 구성을 알아야 한다. 연구에 참여하는 각 개체의 전체 유전체시퀀싱하는 것은 너무 비용이 많이 들기 때문에, 유전체의 일부만 측정할 수 있다. 이는 종종 첫째, 단일염기 다형성(SNP)만을 고려하고 유전체 복제수 변이를 무시하며, 둘째, 고려 중인 개체 집단에서도 변동성이 있을 가능성이 있는, 개체군에서 충분히 변동성이 있다고 알려진 SNP만을 측정하는 것을 의미한다. 가장 정보력이 높은 SNP 하위 집합은 유전체에 따른 일반적인 유전적 변이의 분포를 기반으로 선택되는데, 예를 들어 인간의 햅맵 프로젝트1000 유전체 프로젝트에서 생성된 것과 같다. 이 SNP들은 마이크로어레이를 구축하는 데 사용되어 연구의 각 개체가 이 모든 SNP에서 동시에 유전자형을 가질 수 있도록 한다.

전유전체 연관 분석(GWAS)에 사용되는 유전자형 어레이는 태깅 SNP를 기반으로 하므로 유전체의 모든 변이를 직접적으로 유전자형화하지는 않는다. 더 많은 변이에 대해 유전자형이 분석된 참조 패널에 유전자형을 대치하는 것은 원래 유전자형을 넘어선 유전체 변이의 커버리지를 증가시킨다. 결과적으로, 원래 마이크로어레이에 있는 것보다 더 많은 SNP의 영향을 평가할 수 있다. 중요하게도, 대치는 어레이 간에 분석에 사용할 수 있는 변이의 중복을 증가시켜 다른 어레이에서 유전자형이 분석된 데이터셋의 메타분석을 용이하게 했다.

전체 유전체 시퀀싱(WGS)이 저렴해짐에 따라, 대치는 또 다른 사용 사례를 찾았다. 이는 낮은 커버리지 WGS 리드에서 간극 및 낮은 신뢰도 영역을 채워 향상시킬 수 있다. 이 사용 사례에서, 대치는 SNP 어레이에 비해 더 높은 정확도를 제공한다.[3] 낮은 커버리지 WGS에 대한 대치는 0.5배 커버리지까지의 비아프리카 고대 인간 유전체에 대해 상당히 정확하다.[4]

도구

[편집]

유전자형 어레이에서 1000 유전체 프로젝트 햅플로타입과 같은 참조 패널로 유전자형을 대치하는 데 사용할 수 있는 여러 소프트웨어 패키지가 있다. 이러한 도구에는 MaCH[5], Minimac, IMPUTE2[6], 및 Beagle이 있다.[7] 각 도구는 속도와 정확도 면에서 특정 장단점을 제공한다.[8] SHAPEIT2[9]와 같은 추가 페이징 도구는 향상된 대치 정확도와 계산 성능을 위해 입력 햅플로타입의 사전 페이징을 허용한다.

초기 대치법 사용에서는 햅맵 인구의 햅플로타입이 참조 패널로 사용되었지만, 이는 더 많은 샘플, 더 다양한 인구, 더 높은 유전적 표지자 밀도를 가진 1000 유전체 프로젝트[10]의 햅플로타입 가용성으로 대체되었다. 2014년 중반 현재, 전 세계 26개 인구에서 온 2535명의 개인에 대한 전체 유전체 시퀀스 데이터가 1000 유전체 프로젝트 웹사이트[11]에서 공개적으로 이용 가능하다.

통계 모델

[편집]

유전자형 대치에 대한 정확한 통계 모델을 설계하는 것은 햅플로타입 추정("페이징") 문제와 매우 관련이 있으며, 활발한 연구 분야이다.[12] 대치는 거의 항상 페이징 단계를 선행한다.[1][3] 2022년 현재, 모든 현대적인 페이징 및 대치 소프트웨어는 Li & Stephens 은닉 마르코프 모형 구성에 기반하고 있다.[13]

같이 보기

[편집]

각주

[편집]
  1. Scheet, Paul; Stephens, Matthew (2006). 《A Fast and Flexible Statistical Model for Large-Scale Population Genotype Data: Applications to Inferring Missing Genotypes and Haplotypic Phase》. 《The American Journal of Human Genetics》 78. 629–644쪽. doi:10.1086/502802. PMC 1424677. PMID 16532393. 
  2. Marchini, J.; Howie, B. (2010). 《Genotype imputation for genome-wide association studies》. 《Nature Reviews Genetics》 11. 499–511쪽. doi:10.1038/nrg2796. PMID 20517342. S2CID 1465707. 
  3. Deng, T; Zhang, P; Garrick, D; Gao, H; Wang, L; Zhao, F (2021). 《Comparison of Genotype Imputation for SNP Array and Low-Coverage Whole-Genome Sequencing Data.》. 《Frontiers in Genetics》 12. 704118쪽. doi:10.3389/fgene.2021.704118. PMC 8762119. PMID 35046990. 
  4. Sousa da Mota, Bárbara; Rubinacci, Simone; Cruz Dávalos, Diana Ivette; G. Amorim, Carlos Eduardo; Sikora, Martin; Johannsen, Niels N.; Szmyt, Marzena H.; Włodarczak, Piotr; Szczepanek, Anita; Przybyła, Marcin M.; Schroeder, Hannes; Morten E.; Willerslev, Eske; Malaspinas, Anna-Sapfo; Delaneau, Olivier (2023년 6월 20일). 《Imputation of ancient human genomes》. 《Nature Communications》 14. 3660쪽. Bibcode:2023NatCo..14.3660S. doi:10.1038/s41467-023-39202-0. PMC 10282092 |pmc= 값 확인 필요 (도움말). PMID 37339987. 
  5. Li, Y; Willer, CJ; Ding, J; Scheet, P; Abecasis, GR (Dec 2010). 《MaCH: using sequence and genotype data to estimate haplotypes and unobserved genotypes.》. 《Genetic Epidemiology》 34. 816–34쪽. doi:10.1002/gepi.20533. PMC 3175618. PMID 21058334. 
  6. Howie, B; Fuchsberger, C; Stephens, M; Marchini, J; Abecasis, GR (2012년 7월 22일). 《Fast and accurate genotype imputation in genome-wide association studies through pre-phasing.》. 《Nature Genetics》 44. 955–9쪽. doi:10.1038/ng.2354. PMC 3696580. PMID 22820512. 
  7. Browning, Brian L.; Browning, Sharon R. (2009). 《A Unified Approach to Genotype Imputation and Haplotype-Phase Inference for Large Data Sets of Trios and Unrelated Individuals》. 《The American Journal of Human Genetics》 84. 210–223쪽. doi:10.1016/j.ajhg.2009.01.005. PMC 2668004. PMID 19200528. 
  8. Howie, Bryan; Fuchsberger, Christian; Stephens, Matthew; Marchini, Jonathan; Abecasis, Gonçalo R (2012년 7월 22일). 《Fast and accurate genotype imputation in genome-wide association studies through pre-phasing》. 《Nature Genetics》 44. 955–959쪽. doi:10.1038/ng.2354. PMC 3696580. PMID 22820512. 
  9. Delaneau, Olivier; Marchini, Jonathan; Zagury, Jean-François (2011년 12월 4일). 《A linear complexity phasing method for thousands of genomes》. 《Nature Methods》 9. 179–181쪽. doi:10.1038/nmeth.1785. PMID 22138821. S2CID 13765612. 
  10. Durbin, Richard M.; Altshuler, David L.; Durbin, Richard M.; Abecasis, Gonçalo R.; Bentley, David R.; Chakravarti, Aravinda; Clark, Andrew G.; Collins, Francis S. (2010년 10월 28일). 《A map of human genome variation from population-scale sequencing》. 《Nature》 467. 1061–1073쪽. Bibcode:2010Natur.467.1061T. doi:10.1038/nature09534. PMC 3042601. PMID 20981092. 
  11. “1000 Genomes - A Deep Catalog of Human Genetic Variation”. 2014년 7월 17일에 확인함. 
  12. Howie, Bryan; Donnelly, Peter; Marchini, Jonathan (2009). 《A Flexible and Accurate Genotype Imputation Method for the Next Generation of Genome-Wide Association Studies》. 《PLOS Genetics》 5. e1000529쪽. doi:10.1371/journal.pgen.1000529. PMC 2689936. PMID 19543373. 
  13. De Marino, A; Mahmoud, AA; Bose, M; Bircan, KO; Terpolovsky, A; Bamunusinghe, V; Bohn, S; U; Novković, B; Yazdi, PG (2022). 《A comparative analysis of current phasing and imputation software.》. 《PLOS ONE》 17. e0260177쪽. Bibcode:2022PLoSO..1760177D. doi:10.1371/journal.pone.0260177. PMC 9581364. PMID 36260643.