Karabuk University

SOMALI LANGUAGE ERROR DETECTION USING DEEP LEARNING

Show simple item record

dc.contributor.author ABDI, KADAR BAHAR
dc.date.accessioned 2024-02-27T07:57:24Z
dc.date.available 2024-02-27T07:57:24Z
dc.date.issued 2024-02
dc.identifier.uri http://acikerisim.karabuk.edu.tr:8080/xmlui/handle/123456789/3294
dc.description.abstract ABSTRACT This thesis presents a comprehensive study on the application of advanced natural language processing (NLP) models for error detection and correction in the Somali language, an area that has seen limited exploration in computational linguistics. The research focuses on evaluating and comparing the effectiveness of three prominent models: BiLSTM (Bidirectional Long Short-Term Memory), BERT (Bidirectional Encoder Representations from Transformers), and Seq2Seq (Sequence to Sequence). Each model was meticulously adapted and fine-tuned to address the unique challenges presented by the Somali language, which is characterized by complex syntactic structures and is underrepresented in language processing research. The BiLSTM model was examined for its sequential data handling capabilities, the BERT model for its deep bidirectional contextual understanding, and the Seq2Seq model for its proficiency in transforming sequences, specifically in error correction tasks. Through rigorous training and testing phases, each model’s performance was evaluated based on accuracy, precision, and recall in detecting and correcting linguistic errors in Somali sentences. The results of this study revealed that the BERT model outperformed the others in terms of overall accuracy (97.34%) and precision (98.13%), particularly in identifying complex grammatical and contextual errors. The research highlights the significance of contextual depth in language processing and demonstrates the potential of BERT in applications in- volving underrepresented languages. The findings also provide insights into the strengths and limitations of each model, contributing valuable knowledge to the field of NLP. This thesis underscores the importance of model selection based on specific linguistic tasks and sets a foundation for future exploration in the adaptation of NLP technologies for other less-commonly studied languages. The successful application of these models in Somali language processing not only advances the field of computational linguistics but also opens new pathways for linguistic inclusivity and diversity in technology. ÖZET Bu tez, Somali dilinde hata tespiti ve düzeltimi için gelis¸mis¸ dog˘al dil is¸leme (NLP) mod- ellerinin uygulanmasına yönelik kapsamlı bir çalıs¸mayı sunmaktadır; bu alan, hesapla- malı dilbilimde sınırlı bir s¸ekilde aras¸tırılmıs¸tır. Aras¸tırma, üç önemli modelin etkin- lig˘ini deg˘erlendirmeye ve kars¸ılas¸tırmaya odaklanmaktadır: BiLSTM (˙Iki Yönlü Uzun Kısa Süreli Hafıza), BERT (˙Iki Yönlü Kodlayıcı Gösterimlerinden Dönüs¸türücüler) ve Seq2Seq (Diziden Diziye). Her bir model, karmas¸ık sözdizimsel yapılarıyla karakter- ize edilen ve dil is¸leme aras¸tırmalarında yetersiz temsil edilen Somali dilinin benzersiz zorluklarını ele alacak s¸ekilde özenle uyarlanmıs¸ ve ince ayarlanmıs¸tır. BiLSTM modeli, ardıs¸ık veri is¸leme kapasitesi açısından; BERT modeli, derin iki yönlü bag˘lamsal anlayıs¸ açısından; ve Seq2Seq modeli, özellikle hata düzeltme görevlerinde dizileri dönüs¸türme yeteneg˘i açısından incelenmis¸tir. Her bir modelin performansı, So- mali cümlelerindeki dilsel hataları tespit etme ve düzeltme konusunda dog˘ruluk, has- sasiyet ve geri çag˘ırma üzerinden titiz eg˘itim ve test as¸amaları boyunca deg˘erlendirilmis¸tir. Bu çalıs¸manın sonuçları, BERT modelinin, özellikle karmas¸ık gramer ve bag˘lamsal hata- ları belirleme konusunda genel dog˘ruluk (%97.34) ve hassasiyet (%98.13) açısından dig˘er- lerini geride bıraktıg˘ını göstermis¸tir. Aras¸tırma, dil is¸lemede bag˘lamsal derinlig˘in önem- ini vurgulamakta ve az temsil edilen dillerle ilgili uygulamalarda BERT’in potansiyelini göstermektedir. Bulgular, her modelin güçlü yönleri ve sınırlamalarına dair içgörüler sag˘layarak, NLP alanına deg˘erli bilgi katmaktadır. Bu tez, belirli dilsel görevlere dayalı model seçiminin önemini vurgulamakta ve dig˘er az incelenen diller için NLP teknolojilerinin uyarlanması konusunda gelecekteki aras¸tır- malar için bir temel olus¸turmaktadır. Bu modellerin Somali dil is¸leme sürecindeki bas¸arılı uygulaması, sadece hesaplamalı dilbilim alanını ilerletmekle kalmamakta, aynı zamanda teknolojide dilbilimsel çes¸itlilig˘i ve kapsayıcılıg˘ı tes¸vik eden yeni yollar açmaktadır. en_EN
dc.language.iso en en_EN
dc.subject Natural Language Processing, Somali Language, Error Detection, BERT, BiLSTM, Seq2Seq, Computational Linguistics. en_EN
dc.subject Dogal Dil ˙Is¸leme, Somali Dili, Hata Tespiti, BERT, BiLSTM, Seq2Seq, Hesaplamalı Dilbilim. en_EN
dc.title SOMALI LANGUAGE ERROR DETECTION USING DEEP LEARNING en_EN
dc.title.alternative DERİN ÖĞRENME KULLANARAK SOMALİ DİLİNDEKİ HATALARIN TESPİTİ en_EN
dc.type Thesis en_EN


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account