
저도 몇 년 전 유전자 검사를 받아본 적이 있습니다. 결과지를 받아들고 "이제 내 몸을 정확히 알게 됐구나" 싶었는데, 최근 구글의 판게놈 프로젝트 소식을 접하고 나서 생각이 완전히 바뀌었습니다. 일반적으로 유전자 검사는 누구에게나 똑같이 정확하다고 알려져 있지만, 제가 확인한 바로는 기존 표준 게놈 지도가 특정 인종에 편향되어 있어서 아프리카계 인구의 DNA 중 무려 10%가 아예 지도에 없었다고 합니다. 47개 개인 게놈을 통합한 새로운 판게놈 기술은 이런 불평등을 해소하고, AI 기술로 99.9997%라는 경이로운 정확도까지 달성했습니다.
기존 유전체 지도의 한계와 판게놈의 등장
대부분의 사람들은 인간 게놈 프로젝트가 완성된 2000년대 초반 이후 유전자 검사가 모든 인종에게 동등하게 정확하다고 생각합니다. 저 역시 그렇게 믿었습니다. 하지만 실제로는 단일 선형 참조 서열(linear reference sequence)에만 의존해왔기 때문에, 개인의 DNA 중 참조 서열에 없는 부분은 아예 분석조차 할 수 없었습니다. 여기서 참조 서열이란 유전체 연구의 기준이 되는 표준 DNA 지도를 의미합니다.
910명의 아프리카계 개인을 대상으로 한 연구에서 총 3억 개의 염기쌍, 즉 전체 게놈의 10%에 해당하는 서열이 기존 참조 게놈에는 존재하지 않는다는 사실이 밝혀졌습니다. 쉽게 말해 아프리카계 사람들의 유전 정보 중 10개 중 1개는 아예 지도에 없었던 셈입니다. 이는 질병 진단과 신약 개발에서 심각한 불평등을 초래했습니다.
이 문제를 해결하기 위해 119명의 과학자가 60개 기관과 함께 Human Pangenome Research Consortium을 구성했습니다. 이들은 그래프 데이터 구조(graph data structure)를 활용해 여러 사람의 유전 서열을 동시에 표현하는 판게놈을 만들었습니다. 여기서 그래프 데이터 구조란 DNA 서열을 노드와 경로로 표현하여 다양한 유전적 변이를 한 번에 담아낼 수 있는 방식입니다.
판게놈의 핵심 장점은 다음과 같습니다.
- 개인별 고유 변이를 정확히 포착 가능
- 특정 인종에 편향되지 않은 다양성 확보
- 질병 관련 유전자 분석 정확도 대폭 향상
제가 직접 유전자 검사를 받았을 때는 이런 배경을 전혀 모르고 있었는데, 이제 와서 생각해보니 제 검사 결과도 어쩌면 불완전했을 수 있다는 생각이 듭니다.
AI 기술이 구현한 99.9997% 정확도의 비밀
일반적으로 유전체 분석은 복잡하고 오류가 많다고 알려져 있지만, 구글이 개발한 DeepVariant와 DeepConsensus 같은 딥러닝 기술은 이 문제를 근본적으로 해결했습니다. DeepVariant는 합성곱 신경망(CNN, Convolutional Neural Network) 기반의 변이 검출 프레임워크입니다. 여기서 CNN이란 이미지 인식에 주로 쓰이는 AI 기술로, 유전체 서열 이미지를 분석해 변이를 찾아내는 데 활용됩니다.
처음에는 짧은 염기서열 분석용으로 개발됐던 DeepVariant를 구글은 장기 염기서열 분석(long-read sequencing)에도 적용할 수 있도록 재훈련했습니다. 장기 염기서열 기술은 한 번에 1만~수백만 개의 DNA 문자를 읽어내는 방식으로, 기존 단기 염기서열 기술보다 훨씬 정확한 게놈 조립이 가능합니다. 실제로 미국 FDA 대회에서 단일 염기 변이(SNV, Single Nucleotide Variant) 정확도가 단기 염기서열 수준과 동등한 성적을 거뒀습니다.
더 놀라운 건 트랜스포머(transformer) 구조를 활용한 DeepConsensus입니다. 트랜스포머는 원래 자연어 처리에 쓰이던 AI 기술인데, 이를 DNA 서열 분석에 적용했습니다. 특히 삽입과 삭제 오류를 처리할 수 있는 차별 가능한 손실 함수(differentiable loss function)를 개발해 디코더 없이도 높은 정확도를 달성했습니다. 손실 함수란 AI 모델이 학습할 때 오차를 계산하는 수식으로, 이를 개선해 염기서열의 삽입·삭제 오류를 정확히 잡아낼 수 있게 된 것입니다. 결과적으로 PacBio 염기서열 분석 장비의 수율과 정확도를 크게 개선했고, 47개 게놈 조립체를 99.9997%의 염기 수준 정확도로 완성할 수 있었습니다. 이는 30억 개의 염기쌍 중 단 900개 정도만 틀릴 수 있다는 뜻입니다.
KCNE1 유전자 분석 사례를 보면 판게놈의 위력이 확실히 드러납니다. 이 유전자는 심장 부정맥 및 급사와 연관된 중요한 유전자인데, 기존 선형 참조 방식으로는 많은 변이를 놓쳤지만 판게놈 기반 DeepVariant는 이전에 누락됐던 변이들을 정확히 검출해냈습니다. 제 경험상 이런 정확도 향상은 단순한 숫자 개선이 아니라, 실제 환자의 생명을 구할 수 있는 차이입니다.
이제는 인종과 배경에 상관없이 누구나 자신의 유전적 특성에 맞는 정확한 진단을 받을 수 있는 시대가 열리고 있습니다. "모든 염기를, 모든 곳에서, 한 번에(Every base, everywhere, all at once)"라는 비전은 단순한 구호가 아니라 실현 가능한 목표가 되었습니다. 앞으로 더 많은 개인의 게놈이 판게놈에 추가되면, 전 세계 모든 사람이 자신에게 최적화된 정밀의학 혜택을 받을 수 있을 것입니다. 기술이 인간의 다양성을 진정으로 포용할 때 비로소 의학의 평등이 실현된다는 것을 이번 프로젝트가 증명했습니다.
---
참고: https://research.google/blog/building-better-pangenomes-to-improve-the-equity-of-genomics/?utm_source=ai.google&utm_medium=referral