HYBRID MALWARE DETECTION AND CLASSIFICATION IN REAL-TIME BY DEEP LEARNING TECHNIQUES

AL-MUSAWI, HUSSEIN SADRALDEEN HUSSEIN

DSpace Home
→
LİSANSÜSTÜ EĞİTİM ENSTİTÜSÜ
→
Lisansüstü Eğitim Enstitüsü Yüksek LisansTezleri
→
View Item

dc.contributor.author	AL-MUSAWI, HUSSEIN SADRALDEEN HUSSEIN
dc.date.accessioned	2022-09-09T11:40:24Z
dc.date.available	2022-09-09T11:40:24Z
dc.date.issued	2022-08
dc.identifier.uri	http://acikerisim.karabuk.edu.tr:8080/xmlui/handle/123456789/2174
dc.description.abstract	ABSTRACT In the consequence of communication between people, the sending of crucial data, particularly between them, the downloading of a great number of programs and files are attractive for the cybercriminals. Because the cybercriminals are becoming more sophisticated in their methods, there is a need to develop a robust security mechanism against malicious software, which is growing daily and has become more risky and more complex. In this research project, we presented two new datasets that belong to the same samples that we collected. The first is built on visualization (static analysis) whereas the second is built on API call sequences (dynamic analysis) to detect malware in different methods in case it is encrypted or uses obfuscation techniques. In this study, different models of deep learning used to protect against malware by identifying and categorizing the family to which it belongs are presented. The first dataset, which contains benign and malware images after converted from malware binary numbers, used our custom model and three of the common pretrained network models of CNN (VGG16, Inception V3, and Resnet50). The second dataset, which contains API call sequences, uses two algorithms of RNN (LSTM and GRU). Also, with the second dataset, a CNN was used with API call sequence numbers after reshaping and normalizing it. Finally, we choose three best models for real-time detection and classification: one for CNN using the first dataset, one for RNN using the second dataset, and one for the CNN model using the second dataset after normalizing and reshaping it. We selected the best models depending on their accuracy, number of parameters, and cost-effectiveness (memory). Our framework achieved high accuracy in all models and when testing for examples of malware that belong to the same families but are absent from the dataset that was gathered. These models were found and categorized in a manner that was both very accurate and carried out in real time. ÖZET İnsanlar arasındaki iletişim sonucunda, özellikle kendi aralarında önemli verilerin gönderilmesi, çok sayıda program ve dosyanın indirilmesi siber suçlular için cazip hale gelmektedir. Siber suçlular yöntemlerinde daha karmaşık hale geldikleri için, her geçen gün büyüyen ve daha riskli ve daha karmaşık hale gelen kötü amaçlı yazılımlara karşı sağlam bir güvenlik mekanizması geliştirmeye ihtiyaç vardır. Bu araştırma projesinde, topladığımız aynı örneklere ait 2 yeni veri seti sunulmuştur; bunlardan ilki görselleştirme statik analizi üzerine inşa edilmiştir, ikincisi ise şifrelenmiş olması veya gizleme teknikleri kullanması durumunda kötü amaçlı yazılımları farklı yöntemlerle tespit etmek için bir API çağrı dizileri dinamik analizi üzerine inşa edilmiştir. Bu çalışmada, ait olduğu aileyi tanımlayarak ve kategorize ederek kötü amaçlı yazılımlara karşı korunmak için kullanılan farklı derin öğrenme modelleri sunulmuştur. Kötü amaçlı yazılım ikili sayılarından dönüştürüldükten sonra iyi huylu ve kötü amaçlı yazılım görüntülerini içeren ilk veri setinde özel modelimiz ve CNN'in yaygın ön eğitimli ağ modellerinden üçü (VGG16, Inception V3 ve Resnet 50) kullanılmıştır. API çağrı dizilerini içeren ikinci veri setinde, RNN (LSTM ve Gru) dışında iki algoritma kullanılmıştır. Ayrıca, ikinci veri setinde, yeniden şekillendirildikten ve normalleştirildikten sonra API çağrı dizisi numaraları ile bir CNN kullanılmıştır. Son olarak, gerçek zamanlı tespit ve sınıflandırma için en iyi üç modeli seçtik: biri ilk veri setini kullanan CNN, diğeri ikinci veri setini kullanan RNN ve diğeri de normalleştirip yeniden şekillendirdikten sonra ikinci veri setini kullanan CNN modeli. Doğruluklarına, parametre sayılarına ve maliyet etkinliğine (bellek) bağlı olarak en iyi modelleri seçtik. Aynı ailelere ait olan ancak toplanan veri setinde bulunmayan kötü amaçlı yazılım örnekleri için test yapıldığında tüm çerçeve tüm modellerde yüksek doğruluk elde etti. Bu modeller hem çok doğru hem de gerçek zamanlı olarak gerçekleştirilecek şekilde bulundu ve kategorize edildi.	en_EN
dc.language.iso	en	en_EN
dc.subject	CNN, LSTM, GRU, Hybrid analysis, API call, Malware images.	en_EN
dc.subject	CNN, LSTM, GRU, Hibrit analiz, API çağrısı, Kötü Amaçlı Yazılım görüntüleri.	en_EN
dc.title	HYBRID MALWARE DETECTION AND CLASSIFICATION IN REAL-TIME BY DEEP LEARNING TECHNIQUES	en_EN
dc.title.alternative	DERİN ÖĞRENME TEKNİKLERİYLE HİBRİT ZARARLI YAZILIM TESPİTİ VE GERÇEK ZAMANLI SINIFLANDIRMA	en_EN
dc.type	Thesis	en_EN