Karabuk University

A HYBRID DEEP LEARNING MODEL FOR IMAGE CAPTIONING

Show simple item record

dc.contributor.author TAWFEEQ, ZAINAB KHALID TAWFEEQ
dc.date.accessioned 2024-03-29T05:48:09Z
dc.date.available 2024-03-29T05:48:09Z
dc.date.issued 2024-02
dc.identifier.uri http://acikerisim.karabuk.edu.tr:8080/xmlui/handle/123456789/3376
dc.description.abstract ABSTRACT Image captioning is considered one of the most challenging tasks in computer vision. The ability of deep learning to process large amounts of visual data has played a crucial role in effectively tackling the problem of image captioning. Many studies have been introduced in this field and still need more investigation and improvements. This thesis presents a comprehensive and detailed study of the image captioning models. The study suggests utilizing various lightweight image and language models to achieve high performance in a low computational time since the image captioning process requires more time than other computer vision tasks. In this study, the Flickr30K dataset, which comprises both images and five descriptive sentences per image, is utilized. The images and the description sentences were preliminarily preprocessed to fit the next steps. Specifically, the images were resized to fit the specific dimensional requirements of the utilized models. The pre-trained models proposed in the current study include VGG-16, MobileNet, InceptionV3, XceptionNet, and ResNet50. The last classification layers were removed from all these models to get only the final feature vectors. Various lightweight models were also proposed for the language part, including LSTM, BiLSTM, GRU, and GRU with attention layers. The captions (description sentences) were preprocessed, involving cleaning, splitting, padding, and filtering, and were then provided along with the image features to the decoder part. In some training scenarios, the image and caption features are concatenated without fusion, while feature fusion was employed for others to improve the performance. Attention layers were added to focus more specifically on certain parts of the images and captions. In the experimental part, 13 training scenarios were performed. The experiments revealed that the best models with the highest performance were achieved by VGG+GRU, VGG+GRU with Attention, VGG+GRU with Feature Fusion, and MobileNet+GRU. In some experiments, the vocabulary is filtered. The algorithm selected the 15000 most frequently used phrases from the entire vocabulary to prevent it from overfitting, and this method was compared with the use of the full vocabulary. The models were evaluated using BLEU-1, BLEU-2, ROUGE, METEOR, and CIDEr metrics. The experiments conducted on the Flickr30k dataset, employing our proposed methodologies, resulted in a high BLEU-1 score of 0.674. The study was also compared with related state-of-the-art research in the same field, and the comparison proved the efficiency and high performance of the current study. The main contribution of the current study is that it introduces a comprehensive study of various image captioning models with a specific concentration on lightweight-efficient models that reduces computational time while maintaining robust performance. The study also introduces 13 various scenarios with different feature fusions and attention mechanisms to define the optimal image-textual combination for efficient, lightweight models. The findings demonstrate high performance compared to other state-of-the-art research in the same field, especially in terms of computational efficiency. ÖZET Görüntü alt yazılanma, bilgisayarlı görü alanındaki en zahmetli görevlerden biri olarak kabul edilmektedir. Derin öğrenmenin büyük miktarda görsel veriyi işleyebilme yeteneği, görüntü alt yazılanma problemine etkin bir şekilde yaklaşmada önemli bir rol oynamaktadır. Bu alanda birçok çalışma yapılmış olup daha fazla araştırma ve iyileştirme ihtiyacı bulunmaktadır. Bu tez, görüntü alt yazılanma modelleri üzerine kapsamlı ve detaylı bir çalışma sunmaktadır. Çalışma, görüntü alt yazılanma sürecinin diğer bilgisayarlı görü görevlerine kıyasla daha fazla zaman gerektirmesi nedeniyle, düşük hesaplama süresinde yüksek performans sağlamak için çeşitli hafif görüntü ve dil modellerinin kullanılmasını önermektedir. Bu çalışmada, her bir görüntü için beş tanımlayıcı cümle içeren Flickr30K veri seti kullanılmıştır. Görüntüler ve açıklama cümleleri, sonraki adımlara uygun hale getirilmek üzere ön işlemden geçirilmiştir. Özellikle görüntüler, kullanılan modellerin belirli boyut gereksinimlerine uyacak şekilde yeniden boyutlandırılmıştır. Bu çalışmada önerilen önceden eğitilmiş modeller arasında VGG-16, MobileNet, InceptionV3, XceptionNet ve ResNet50 bulunmaktadır. Bu modellerin son sınıflandırma katmanları kaldırılarak sadece nihai özellik vektörleri elde edilmiştir. Dil bölümü için LSTM, BiLSTM, GRU ve dikkat katmanlarına sahip GRU gibi çeşitli hafif modeller de önerilmiştir. Altyazılar (açıklama cümleleri) temizleme, bölme, doldurma ve filtreleme işlemlerinden geçirilerek ön işlemden sonra, görüntü özellikleriyle birlikte kod çözücü (Decoder) kısma sunulmuştur. Bazı eğitim senaryolarında, görüntü ve altyazı özellikleri füzyonsuz birleştirilirken, diğerlerinde performansı artırmak için özellik füzyonu kullanılmıştır. Görüntü ve altyazıların belirli kısımlarına daha özel olarak odaklanmak için dikkat katmanları (Attention layers) eklenmiştir. Deneysel bölümde, 13 eğitim senaryosu gerçekleştirilmiştir. Deneyler, en yüksek performansa sahip en iyi modellerin VGG+GRU, dikkat katmanlı VGG+GRU, özellik füzyonlu VGG+GRU ve MobileNet+GRU tarafından elde edildiğini ortaya koymuştur. Bazı deneylerde kelime hazinesi filtrelenmiştir. Algoritma, aşırı öğrenmeyi önlemek için tüm kelime dağarcığından en sık kullanılan 15.000 ifadeyi seçmiş ve bu yöntem, tam kelime haznesinin kullanımı ile karşılaştırılmıştır. Modeller, BLEU-1, BLEU-2, ROUGE, METEOR ve CIDEr metrikleri kullanılarak değerlendirilmiştir. Flickr30k veri seti üzerinde gerçekleştirilen deneyler, önerilen metodolojilerimiz kullanılarak 0.674 yüksek BLEU-1 puanı elde edilmiştir. Çalışma ayrıca, aynı alandaki ilgili güncel araştırmalarla karşılaştırılmıştır ve bu karşılaştırma, mevcut çalışmanın verimliliğini ve yüksek performansını kanıtlamıştır. Bu çalışmanın temel katkısı, hesaplama süresini azaltırken güçlü performansı koruyan hafif-etkin modellere özel bir odaklanmayla çeşitli görüntü etiketleme modellerinin kapsamlı bir çalışmasını sunmasıdır. Çalışma ayrıca etkin, hafif modeller için optimal görsel-metinsel kombinasyonu tanımlamak amacıyla farklı özellik füzyonları ve dikkat mekanizmaları içeren 13 çeşitli senaryoyu tanıtmaktadır. Bulgular, özellikle hesaplama verimliliği açısından, aynı alandaki diğer güncel araştırmalara kıyasla yüksek performans göstermektedir en_EN
dc.language.iso en en_EN
dc.subject Image Captioning, Image Description, Deep Learning, Image Models, Language Models, Flickr30K. en_EN
dc.subject Görüntü Altyazılanma, Görüntü Tanımı, Derin Öğrenme, Görüntü Modelleri, Dil Modelleri, Flickr30K. en_EN
dc.title A HYBRID DEEP LEARNING MODEL FOR IMAGE CAPTIONING en_EN
dc.title.alternative GÖRÜNTÜ ALTYAZILAMA İÇİN HİBRİT DERİN ÖĞRENME MODELİ en_EN
dc.type Thesis en_EN


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account