Aim: Copy number variations (CNVs), comprising approximately two percent of the human genome, represent specific DNA segment deletions or duplications. While these structural variations may be present in healthy populations, they can also manifest clinically significant implications. The clinical interpretation of identified CNVs constitutes a complex process necessitating comprehensive family studies.
The interpretation of clinical and genetic data often presents challenges in achieving definitive conclusions. Machine learning algorithms have emerged as increasingly valuable tools in medical applications, particularly in genetics where large-scale datasets predominate. This investigation aimed to evaluate the implementation of machine learning algorithms for the clinical assessment of copy number variations.
Materials and Methods: The study methodology comprised an initial pilot analysis utilizing ISCA consortium data (n=11,989 variants), followed by a comprehensive analysis of ClinVar database variants (n= 66803). The variants were stratified into five clinical classification categories (Benign, Likely Benign, VUS, Likely Pathogenic, and Pathogenic). Analyses were conducted using the Microsoft Azure Machine Learning Studio platform, implementing various machine learning algorithms (Multiclass Decision Trees, Logistic Regression, and Neural Network) with a 70:30 training-testing data partition.
Results: The ISCA dataset analysis demonstrated an average accuracy of 0.96 utilizing multiclass decision trees, while the ClinVar dataset achieved 0.86 accuracy with the same algorithmic approach. The model exhibited predictive accuracies of 74.8%, 77.6%, and 62.6% for pathogenic, benign, and variants of unknown significance, respectively. Frequently occurring variants demonstrated superior predictive accuracy, and binary classification (benign/pathogenic) yielded an enhanced average accuracy of 0.90.
Conclusion: This investigation demonstrates the feasibility of developing a preliminary machine learning model for the clinical evaluation and potential automated classification of copy number variants.
Copy Number Variations Machine Learning Genetics Bioinformatics
Amaç: Kopya sayısı varyasyonları, insan genomunun yaklaşık yüzde ikisinde bulunan belirli DNA bölgelerinin kayıp veya kazançlarıdır. Yapısal varyasyonlar arasında yer alan bu grup, sağlıklı popülasyonda bulunabileceği gibi ilgili bölgenin kayıp veya kazançları klinik tablolarla da ilişkilendirilebilir. Tespit edilen kopya sayısı varyasyonunun klinik olarak yorumlanması, aile çalışmasını da gerektiren karmaşık bir süreçtir. Klinik ve genetik verilerin yorumlanması sürecinde her zaman doğru bilgiye ulaşılamamaktadır. Kullanımı artan makine öğrenme algoritmaları giderek tıp alanında da kullanılmakta ve özellikle büyük veri setlerinin bulunduğu genetik gibi alanlarda giderek önem kazanmaktadır. Bu çalışma ile kopya sayısı varyasyonlarının klinik değerlendirilmesinde makine öğrenme algoritmalarının kullanımı amaçlanmıştır.
Gereç ve Yöntem: Araştırmada öncelikle 11989 varyant bulunan ISCA konsorsiyumu verileri ile pilot analiz gerçekleştirilmiş, sonrasında ClinVar veri tabanından elde edilen 63156 varyantlı veri seti kullanılmıştır. Beş ana sınıfta (Benign, Muhtemel Benign, VUS, Muhtemel Patojenik ve Patojenik) bulunan varyantlar, Microsoft Azure Machine Learning Studio platformunda, %70 eğitim ve %30 test verisi olarak ayrılmış ve çeşitli makine öğrenmesi algoritmaları (Çok Sınıflı Karar Ağaçları, Lojistik Regresyon ve Sinir Ağı) kullanılarak analiz gerçekleştirilmiştir.
Bulgular: ISCA veri seti ile yapılan modelde çok sınıflı karar ağacı ile ortalamada 0,96 doğruluğa ulaşılırken, ClinVar veri setinde yine çok sınıflı karar ağacı ile 0,86 doğruluğa ulaşılmıştır. Bu modelde patojenikler %74.8, benignler %77.6 ve önemi bilinmeyen varyantlar %62.6 oranında doğru tahmin edilmiştir. Çalışmada sık karşılaşılan varyantlar daha yüksek başarı ile tanımlanmış ve örneklemin benign ve patojenik olarak iki sınıflı haline getirilmesi durumunda ise ortalama ve toplamda 0.90 doğruluğa ulaşılmıştır.
Sonuç: Bu çalışma, kopya sayısı varyantlarının klinik değerlendirilmesinde kullanılabilecek ve tanıyı otomatikleştirebilecek öncül bir makine öğrenme modeli oluşturulabileceğini göstermiştir.
Kopya Sayısı Varyasyonları Makine Öğrenme Biyoinformatik Genetik;
Birincil Dil | Türkçe |
---|---|
Konular | Tıbbi Genetik (Kanser Genetiği hariç) |
Bölüm | Araştırma Makaleleri |
Yazarlar | |
Yayımlanma Tarihi | 12 Mart 2025 |
Gönderilme Tarihi | 17 Aralık 2024 |
Kabul Tarihi | 4 Şubat 2025 |
Yayımlandığı Sayı | Yıl 2025Cilt: 64 Sayı: 1 |