ANALYSIS OF MACHINE LEARNING AND DEEP LEARNING TECHNIQUES FOR RANSOMWARE DETECTION

Yükleniyor...
Küçük Resim

Tarih

2023-10

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Ransomware is a special type of malware by which the attacker targets the victim's device using a link attached by an email, and once the victim opens the attachment, all his files are encrypted. The victim cannot retrieve his data without paying the attacker for the decryption key. Ransomware becomes very dangerous and affects all human facilities, including medical centers, military organizations, security platforms, financial facilities, etc. Ransomware detection and classification-based artificial intelligence applications are essential to limit the attacker's ability and prevent it from harming devices. The current study proposes a new ransomware detection and classification study. Besides, a novel feature selection algorithm is proposed to involve the essential information of network tasks and drop the redundant data that can slow the detection process. The study uses a challenging dataset of 392034 records, 84 features, and 11 different types of ransomware. In the first step, the dataset is preprocessed by cleaning it, encoding all textual (categorical) features, and normalizing them to ensure it fits all machine learning and deep learning models. In the second step, the dataset is split into the train (80%) and test (20%) for the machine learning models. Besides, another validation set is created with a percentage of (20%) of the training set for the deep learning models. The third step is feature selection, in which the redundant features are dropped using a novel hybrid feature selection method depending on both ANOVA and Random Forests to select the best subset of features. In the fourth step, many machine learning and deep learning models are trained using the training set. The experiment part includes applying the fusion of the individual models (for both machine learning and deep learning models) besides the ensemble learning of these individual models. In the evaluation step, the precision, recall, F1-score, and accuracy are used to assess the performance of the individual, the fusion, and the ensemble models. Besides this, three different feature selection scenarios are conducted to seek the best combination of features. The training time of all models is also computed to see the effect of the feature reduction on the computational costs. Results showed that the best models are the XGB, LGBM, and RF models. Besides that, the ML ensemble model achieves a good performance. The feature selection method minimized the training time significantly, especially for the high-computational models like XGB and LGBM, without any remarkable degradation in performance. The best-obtained accuracy is related to the XGB model with 99.87%. The study is also compared with the current state-of-art methodologies. The comparison proves that the current study outperforms all previous ones. Future work can focus on the idea of hyperparameter optimization to improve the performance.
Fidye yazılımı, bilgisayar korsanının(dolandırıcı) kurbanın cihazını bir e-posta ekindeki bağlantı aracılığıyla hedef aldığı özel bir o kadar da kötü amaçlı yazılım türüdür. Kurban seçilen şahıs ek dosyayı açtığında, tüm dosyaları şifrelenir. Tespit edilen kişi, verilerini korsana deşifre anahtarı için ödeme yapmadan geri alamaz. Günümüzde Fidye yazılımı son derece tehlikeli hale gelmiştir ve tıbbi merkezler, askeri organizasyonlar, güvenlik platformları,ve finans kuruluşları dahil olmak üzere tüm insan tesislerini etkilemektedir. Dolandırıcının yeteneğini sınırlamak ve cihazlara zarar vermesini engellemek için fidye yazılımının tespiti ve sınıflandırılmasına dayalı yapay zeka uygulamaları hayati önem taşımaktadır Bu çalışma, yeni bir fidye yazılımı tespiti ve sınıflandırma çalışması önermektedir. Ayrıca, ağ görevlerinin temel bilgisini içerecek ve tespit sürecini yavaşlatabilecek gereksiz verileri düşürecek yeni bir özellik seçim algoritması önermektedir. Çalışma, 392034 kayıt, 84 özellik ve 11 farklı fidye yazılım türünden oluşan zorlayıcı bir veri kümesini kullanmaktadır. İlk etapta veri kümesi temizlenir, tüm metinsel (kategorik) özellikler kodlanır ve tüm makine öğrenimi ve derin öğrenme modellerine uygun olması için normalize edilir. İkinci adımda ise, veri kümesi makine öğrenimi modelleri için eğitim (%80) ve test (%20) olarak bölünür. Ayrıca, derin öğrenme modelleri için eğitim kümesinin %20'si bir doğrulama kümesi olarak oluşturulur. Üçüncü adım ise özellik seçimidir. Bu adımda, en iyi özellik alt kümesini seçmek için hem ANOVA hem de Rastgele Ormanlara dayanan hibrit bir özellik seçim yöntemi kullanılarak gereksiz özellikler düşürülür. Dördüncü adımda, birçok makine öğrenimi ve derin öğrenme modeli eğitim kümesi kullanılarak eğitilir. Deney kısmında, bireysel modellerin (hem makine öğrenimi hem de derin öğrenme modelleri için) birleşiminin yanı sıra bu bireysel modellerin topluluğunun öğrenilmesini içerir. Değerlendirme aşamasında, bireysel, birleşim ve topluluk modellerinin performansını değerlendirmek için kesinlik, hatırlama, F1 puanı ve doğruluk kullanılır. Bunun yanı sıra en iyi özellik kombinasyonunu bulmak için üç ayrı özellik seçimi senaryosu gerçekleştirilir. Tüm modellerin eğitim süresi de, özellik azaltmanın hesaplama maliyetleri üzerindeki etkisini görmek için hesaplanır. Sonuçlar, en iyi modellerin XGB, LGBM ve RF modelleri olduğunu göstermektedir. Bunun yanı sıra, ML topluluk modeli iyi bir performans göstermektedir. Özellik seçim yöntemi, özellikle XGB ve LGBM gibi yüksek hesaplama modelleri için eğitim süresini önemli ölçüde azaltırken, performansta ciddi bir düşüş olmaksızın gerçekleştirmiştir. En iyi elde edilen doğruluk, %99,87 ile XGB modeline aittir. Çalışma ayrıca güncel en iyi metodolojilerle kıyaslanmıştır. Kıyaslama, mevcut çalışmanın tüm önceki çalışmalardan daha üstün olduğunu kanıtlamaktadır. Gelecekteki çalışmalar, performansı iyileştirmek için hiperparametre optimizasyonu düşüncesine odaklanabilir."

Açıklama

Anahtar Kelimeler

Machine Learning, Deep Learning, Ransomware Detection, Multi-Class Classification, Feature Selection, Security., Makine Öğrenmesi, Derin Öğrenme, Fidye Yazılımı Tespiti, Çok Sınıflı Sınıflandırma, Öznitelik Seçimi, Güvenlik.

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye