dc.description.abstract |
ÖZET
Bu çalışmada özellik sayısını azaltma ve özellik seçimine yönelik yeni bir yaklaşım önerilmiştir. Yaklaşım ile iki popüler özellik önem yöntemini ve GRIS ortalama yöntemini birleştirerek yüksek algılama doğruluğunu korumak hedeflenmiştir. 2 farklı oltalama benchmark veri seti üzerinde 12 farklı algoritma kullanılarak sonuçlar toplanmıştır. Hem veri seti hem de algoritma bazında sonuçlar karşılaştırılmıştır. Önerilen özellik seçme yaklaşımının algoritmalar için eğitim ve test süresini iyileştirdiği görülmüştür. Mendeley 2018 veri seti için özelliklerin sadece %27,08'i ile LightGBM algoritmasında doğruluğun %98,37'ye ulaşabildiği görülmüştür. Mendeley 2020 veri seti için ise özelliklerin sadece %17,12'si ile Random Forest algoritmasında doğruluğun %97,12'ye ulaşabildiği görülmüştür. Aynı zamanda bellek kullanımında Mendeley 2018 veri setinde %72,95, Mendeley 2020 veri setinde ise %82,88 düşüş gözlemlenmiştir. Böylece önerilen yaklaşımla elde edilen verimli özellikler kullanılarak çok daha az bellek kullanımı ile daha kısa sürede yüksek doğruluğun korunabileceği ortaya konulmuştur.
ABSTRACT
This study introduces a novel approach to feature selection and reduction, aiming to uphold a high level of detection accuracy through the amalgamation of two prevalent feature importance methods and the GRIS averaging technique. The results were obtained by applying 12 distinct algorithms across two diverse phishing benchmark datasets, subsequently comparing both dataset and algorithm-based outcomes. The proposed feature selection approach exhibited the capacity to notably diminish the training and testing duration for the algorithms. In the case of the Mendeley 2018 dataset, it was observed that the LightGBM algorithm achieved an accuracy of 98.37%, utilizing just 27.08% of the features. Similarly, for the Mendeley 2020 dataset, the Random Forest algorithm attained an accuracy of 97.12% with a mere 17.12% of the features. Concurrently, a substantial reduction of 72.95% in memory usage was observed in the Mendeley 2018 dataset, along with an 82.88% reduction in the Mendeley 2020 dataset. These findings collectively demonstrate that by utilizing the efficient features derived from the proposed approach, it is possible to maintain high accuracy levels while significantly reducing memory usage and expediting processing time. |
en_EN |