기계 학습과 Cox 모델을 결합하여 사건 발생 후 예측 변수 식별

Scientific Reports 13권, 기사 번호: 9221(2023) 이 기사 인용

측정항목 세부정보

우리는 위험 예측을 위한 다유전성 위험 점수(PRS)의 역할에 미리 지정된 관심을 가지고 폐경 후 여성의 유방암에 대한 잠재적인 새로운 예측 인자를 식별하는 것을 목표로 했습니다. 우리는 고전적인 통계 모델을 통한 위험 예측에 앞서 기능 선택을 위해 기계 학습을 사용하는 분석 파이프라인을 활용했습니다. 영국 바이오뱅크(UK Biobank)의 폐경 후 여성 104,313명의 \(\about\) 1.7k 특징 중에서 특징 선택을 위해 Shapley 기능 중요도 측정 기능을 갖춘 "극단적 경사 부스팅"(XGBoost) 기계가 사용되었습니다. 우리는 위험 예측을 위해 "증강된" Cox 모델(2개의 PRS, 알려진 예측변수와 새로운 예측변수를 통합함)을 "기준" Cox 모델(2개의 PRS와 알려진 예측변수를 통합함)과 비교했습니다. 두 PRS는 모두 증강 Cox 모델에서 유의미했습니다(\(p<0.001\)). XGBoost는 10가지 새로운 특징을 확인했으며 그 중 5개는 폐경 후 유방암과 유의미한 연관성을 보였습니다: 혈장 요소(HR = 0.95, 95% CI 0.92–0.98, \(p<0.001\)), 혈장 인산염(HR = 0.68, 95) % CI 0.53–0.88, \(p=0.003\)), 기초 대사율(HR = 1.17, 95% CI 1.11–1.24, \(p<0.001\)), 적혈구 수(HR = 1.21, 95% CI 1.08–1.35, \(p<0.001\)), 소변 내 크레아티닌(HR = 1.05, 95% CI 1.01–1.09, \(p=0.006\)). 증강된 Cox 모델에서는 위험 차별이 유지되어 훈련 데이터의 경우 C-index 0.673 대 0.667(기준 Cox 모델), 테스트 데이터의 경우 0.665 대 0.664를 산출했습니다. 우리는 폐경 후 유방암에 대한 잠재적인 새로운 예측 인자로서 혈액/소변 바이오마커를 확인했습니다. 우리의 연구 결과는 유방암 위험에 대한 새로운 통찰력을 제공합니다. 향후 연구에서는 새로운 예측변수를 검증하고, 더 나은 유방암 위험 예측을 위해 다중 PRS와 보다 정확한 인체 측정법을 사용하여 조사해야 합니다.

유방암은 여성에게 가장 흔한 암으로, 2020년에 230만 명의 여성이 유방암 진단을 받았습니다1. 수십 년간의 노력을 통해 생식 요인3,4,5, 생활 방식6,7 및 유전적 유전적 요인8,9을 포함하여 이 질병에 대한 다양한 예측 변수가 확립되었습니다8,9 ,10. 여러 수정 가능한 예측변수가 확인되었음에도 불구하고 유방암은 여전히 주요 사망 원인으로 남아 있으며, 2020년 전 세계적으로 685,000명이 사망했습니다. 폐경 전후 유방암은 일반적으로 병인학적으로 다른 것으로 간주됩니다11,12,13,14,15.

전통적으로 유방암과 같은 질병에 대한 예측 변수 발견은 가설 중심입니다. 이러한 예측 변수를 평가하기 위해 고전적인 통계 모델(예: 로지스틱 회귀)을 사용하는 것이 합리적이지만 일부 새로운 예측 변수는 고전적인 예측 모델을 구성하기 전 정보가 풍부한 데이터의 발견 단계에서 간과될 수 있습니다. 기계 학습(ML) 방법은 다수의 예측 변수와 복잡한 비선형 관계를 모두 처리할 수 있으므로 예측 변수 발견에 도움을 줄 수 있습니다16,17. 이전 ML 연구는 주로 유방암 위험 예측 암18,19,20,21,22에 대한 ML 접근 방식을 기존 모델과 비교하는 방법에 중점을 두었지만 예측 변수 식별을 위해 ML을 활용하는 방법에 대한 연구는 부족합니다. UK Biobank(UKB)와 같은 크고 상세한 코호트의 가용성이 증가함에 따라 잠재적으로 새로운 예측 변수를 식별하기 위해 가설 없는 접근 방식을 활용할 수 있는 기회가 제공됩니다.

최근 몇 년 동안 게놈 전체 연관(GWAS) 연구를 사용하여 확인된 특정 질병 또는 특성과 관련된 많은 수(예: 수백 또는 수천)의 유전 변이의 효과를 집계하는 다유전적 위험 점수(PRS)가 급속히 발전하는 것을 목격했습니다. PRS는 더 나은 미래 질병 위험을 제공하고 표적 치료 또는 선별 전략을 위해 위험이 높은 사람들을 식별하는 것을 포함하여 다양한 임상 실습 및 연구에서 제안되었습니다23. 예를 들어, PRS는 스타틴 처방으로 가장 큰 혜택을 받을 인구 집단을 식별하는 데 이점을 추가했습니다24,25,26; PRS는 기존 관상동맥 질환 위험 예측변수(예: Framingham 위험 점수)에 정확성을 추가했습니다. 유방암 PRS는 BOADICEA(유방 및 난소 질병 발병률 분석 및 보인자 추정 알고리즘)28 및 Tyrer-Cuzick 모델29과 같은 기존 위험 예측 모델에 통합되었습니다.

\) 0.49) and variants with minor allele frequency (MAF) \(<\) 0.005. This led to 305 variants remaining in PRS313 and 115,300 in PRS120k (Supplementary Table 1)./p>\) 30%, and those where all participants had the same value (such as rare diseases which no participants were affected by at baseline) which were of no discriminative utility, yielding 1,737 input features for ML models. All features were fitted in original scale from UKB without transformations./p>

0.9\)), we removed either the feature with most missing data, or the auxiliary one. This step is necessary to reduce the collinearity prior to constructing a linear (e.g. Cox) statistical model when the model will be used to draw statistical inference on the estimated effect of features./p>

블로그

기계 학습과 Cox 모델을 결합하여 사건 발생 후 예측 변수 식별