KÜTLE SPEKTROMETRESİ TEMELLİ KLİNİKSEL GLİKOMİK ÇALIŞMALARINA YÖNELİK BİR MAKİNE ÖĞRENMESİ UYGULAMASI

Yükleniyor...
Küçük Resim

Tarih

2022-06

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Mide kanseri dünyada en çok görülen kanser türlerinden biridir. Mide kanseri dokuları üzerinde N-glikozilasyon yapılarının incelenip makine öğrenmesi algoritmaları yöntemleriyle değerlendirilmesine yönelik literatürdeki çalışma sayısı çok azdır. Bu tez kapsamında, mide kanseri glikan profilleri MALDI-MS ile incelenip oluşturulan veri setinin makine öğrenmesi algoritmalarıyla değerlendirilmesi amaçlanmıştır. Bu kapsamda Karabük Eğitim ve Araştrıma Hastanesi Patoloji bölümünden parafilm ile kaplanmış mide kanseri ve kontrol dokuları alınıp bu çalışmada kullanılmıştır. İlk başta dokulardan parafilm uzaklaştırılmıştır. Dokulardan proteinlerin ekstraksiyonu kloform/methanol yöntemi ile gerçekleştirilmiştir. Ekstrakte edilen glikoproteinlerden N-glikanların salınımı sonrası glikanlar 2-AA ile etiketlenmiştir. Sırasıyla selüloz ve gözenekli grafitize karbon katı faz kartuşları ile 2-AA etiketli glikanların saflaştırılmaları yapılmıştır ve 2-AA ile etiketlenmiş N-glikanların MALDI-MS analizleri gerçekleştirilmiştir. Analizler sonucu 59 adet N-glikan yapısı tespit edilmiştir. Daha sonra N-glikanların yapısal doğrulamaları tandem MS/MS analizleri ile gerçekleştirilmiştir ve yapısal özelliklerine göre glikanlar gruplandırılmıştır. Bu analizler sonucunda tespit edilen glikanların göreceli alanları ve analit alanları hesaplanmıştır. Elde edilen veriler makine öğrenmesi algoritmaları için düzenlenerek veri seti haline getirilmiştir. Nötr N-glikanlar için göreceli ve analit alanı olarak 2 ayrı veri seti ve tüm N-glikanlar için göreceli ve analit alan olarak 2 ayrı veri seti ve sonuç olarak toplamda 4 farklı veri seti oluşturulmuştur. Her bir kanser ve kontrol örneğine ait maksimum 4 teknik tekrardan elde edilen veriler analizlere dahil edilmiştir. KNN, RF, DT, SVM, LR ve MLPC algoritmaları ile model değerlendirme parametreleri kullanılarak verilerden anlamlı sonuçlar elde edilmiştir. Bu bağlamda uygulanan algoritmalar ve model değerlendirmeleri ile N-glikanlarda kanser ve kontrol dokuları arasında anlamlı farklılıklar olduğu görülmüştür. MLPC algoritması her veri setinde en yüksek doğruluk skoruna sahip olan algoritma olmuştur. Nötr N-glikanlar göreceli alan veri setinde MLPC algoritmasının doğruluk skoru %93.6+-0.8 ve ROC analizi sonrası AUC skoru 0.99 olarak bulunmuştur.
Stomach cancer is one of the most common types of cancer in the world. The number of studies in the literature on the examination of N-glycosylation structures on gastric cancer tissues and their evaluation with machine learning algorithms is very few. Within the scope of this thesis, it is aimed to evaluate the data set created by examining the gastric cancer glycan profiles with MALDI-MS with machine learning algorithms. In this context, parafilm-embedded gastric cancer and control tissues were taken from the Pathology Department of Karabuk Training and Research Hospital and used in this study. Initially, parafilm was removed from the tissues. Extraction of proteins from tissues was carried out with the chloroform/methanol extraction method. After the release of N-glycans from the extracted glycoproteins, the glycans were labeled with 2-AA. Purification was achieved with cellulose and porous graphized carbon-containing solid-phase cartridges, respectively. MALDI-MS analyzes of 2-AA-labeled N-glycans were performed. As a result of the analysis, 59 N-glycans were detected. Then, structural confirmations of N-glycans were performed by tandem MS/MS analyzes and grouped according to their structural properties. The relative areas and analyte areas of the glycans detected as a result of these analyzes were calculated. The obtained data were arranged for machine learning algorithms and turned into a suitable data set for analysis. For neutral N-glycans, two separate data sets as relative and analyte domains, and two separate data sets as relative and analyte domains for all N-glycans, and as a result, four different data sets in total were created. Data obtained from a maximum of 4 technical replicates of each cancer and control sample were included in the analyses. Significant results were obtained from the data by using KNN, RF, DT, SVM, LR, and MLPC algorithms and model evaluation parameters. In this context, it has been observed that there are significant differences between cancer and control tissues in N-glycans with applied algorithms and model evaluations. The MLPC algorithm was the algorithm with the highest accuracy score in each data set. In the neutral N-glycans relative area dataset, the accuracy score of the MLPC algorithm was 93.6%+-0.8%, and after the ROC analysis, the AUC score was found to be 0.99."

Açıklama

Anahtar Kelimeler

Mide kanseri, N-Glikan, glikozilasyon, kütle spektrometresi, MALDI, makine öğrenmesi., Stomach cancer, N-glycan, glycosylation, mass spectrometry, MALDI, machine learning.

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye