강좌 정보
2026 제20회 통계유전학워크샵
20th Asian Institute in Statistical Genetics and Genomics
기본 개요
강좌명
02. 바이오 뱅크 데이터 분석
주강사
정원일 (숭실대학교)
조교
박승환, 이건 (숭실대학교)
날짜
2026.07.20 09:20 ~ 2026.07.21 17:10
강좌 방식
오프라인
강좌 정보

최근 전 세계적으로 대규모 바이오뱅크 구축이 활발히 이루어지고 있다. 유럽의 UK Biobank (약 50만 명)를 비롯하여, 동아시아 지역에서도 한국의 KoGES (약 16만 명)와 KCPS2 (약 15만 명), 일본의 BBJ (약 18만 명)와 TMM(약 15만명), 중국의 CKB (약 50만 명), 대만의 TWB (약 20만 명)와 TPMI (약 50만명) 등 다양한 대규모 유전체-표현형 데이터가 구축되고 있다. 본 세션은 이러한 다인종·대규모 바이오뱅크 데이터를 효과적으로 분석하는 데 필요한 기본 개념을 소개하고, 실습을 통해 실제 분석 역량을 함양하는 것을 목표로 한다.


▶ Day 1 – 정원일 교수님
첫 번째 세션에서는 유전체 분석의 기본 개념 및 population stratification에 대해 학습하고, UK Biobank를 비롯한 KoGES, KCPS2, BBJ, CKB, TWB 등 다인종 대규모 바이오뱅크의 유전체 및 표현형 데이터 유형을 소개한다. 이어서 대규모 바이오뱅크 데이터를 활용한 연관성 분석에 사용되는 최신 혼합 모형 기반 기법들(BOLT-LMM, REGENIE)을 다룬다. 또한 표현형 데이터 중 질병 정보, 다범주형 데이터, 그리고 time-to-event 데이터에 적용 가능한 최신 분석 방법들(SAIGE, POLMM, GATE)을 소개한다. 연관성 분석 이후 수행할 수 있는 후속 분석으로는 검정력 향상을 위한 메타분석(meta-analysis), 다양한 인구집단의 GWAS 데이터를 통합하기 위한 교차인구집단 메타분석(cross-population meta-analysis), fine-mapping 및 conditional analysis, 그리고 유전자 발현 데이터와 표현형 간의 연관성을 탐색하는 TWAS(transcriptome-wide association study)를 포함한다. 마지막으로, 시뮬레이션 데이터를 활용하여 대규모 바이오뱅크 데이터에서의 연관성 분석, 메타분석, 그리고 TWAS 분석을 실습함으로써 실제 바이오뱅크 데이터 분석의 전반적인 과정을 경험한다.


▶ Day 2 – 정원일 교수님
두 번째 세션에서는 유전율(Heritability) 및 유전적 상관계수(Genetic Correlation) 추정 방법을 소개하고, 다유전자 위험점수(Polygenic Risk Score, PRS) 및 유전적 감수성(genetic susceptibility)의 개념을 이해한다. 이를 바탕으로 제2형 당뇨병(T2D), 천식(Asthma) 등 다양한 질병에 대한 Heritability 및 Genetic Correlation을 추정하고, 개인의 유전적 소인을 수치화하는 방법을 학습한다. Heritability가 PRS 기반 예측 정확도의 이론적 상한임을 이해하고, 공개된 GWAS 데이터를 활용하는 방법과 바이오뱅크 데이터를 직접 활용하는 방법을 비교하여 살펴본다. 또한 Plink, GCTA, LDSC, Lassosum, Lassosum2, LDpred, LDpred2, SNPnet, SBayesR, SBayesRC, MegaPRS, PolyPred 등 최근 개발된 다양한 방법들에서 Heritability와 PRS 계산에 사용되는 통계 모형을 설명한다. 마지막으로, 시뮬레이션 데이터 및 실제 바이오뱅크 데이터를 활용하여 Heritability와 PRS를 계산하고, 이를 통계 분석에 적용하는 과정을 실습한다.

기타
인터넷 접속 필요여부
웹서핑
동영상
파일 다운로드
기타
교육생 개인 노트북
필요 필요하지 않음
세부 안내사항
리눅스 서버 접속을 위한 WinSCP나 Putty와 같은 터미널 프로그램 설치 필요 (맥 사용자의 경우 특별한 프로그램 설치 필요없음)
수강생 수준
강좌 난이도: 중 / 수강생 수준: 생물정보학 입문자 및 실제 바이오뱅크 데이터를 분석하고자 하는 분
수강생 준비물
개인 노트북
기타 안내사항
-
교육일정
구분 세션 시간 강의내용 강사명 비고
Day 1 Session 1 09:20~10:50 다인종 대규모 바이오뱅크(UK Biobank, KoGES, BBJ 등) 데이터 유형 소개 및 최신 GWAS 분석 방법 소개 정원일 강의
Day 1 Session 2 11:00~12:30 메타분석, 교차인구집단 메타분석, TWAS 분석 소개 정원일 강의
Day 1 Session 3 14:00~15:30 다인종 바이오뱅크 데이터 소개 및 GWAS 분석 실습 정원일 강의/실습
Day 1 Session 4 15:40~17:10 메타분석, TWAS 분석 실습 정원일 강의/실습
Day 2 Session 1 09:20~10:50 Heritability 및 Genetic Correlation 추정 방법 소개 정원일 강의
Day 2 Session 2 11:00~12:30 Polygenic Risk Scores (PRS) 계산 방법 소개 정원일 강의
Day 2 Session 3 14:00~15:30 Heritability 추정 실습 정원일 강의/실습
Day 2 Session 4 15:40~17:10 PRS 계산 실습 정원일 강의/실습