SOMALI LANGUAGE ERROR DETECTION USING DEEP LEARNING
Yükleniyor...
Dosyalar
Tarih
2024-02
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
This thesis presents a comprehensive study on the application of advanced natural language processing (NLP) models for error detection and correction in the Somali language, an area that has seen limited exploration in computational linguistics. The research focuses on evaluating and comparing the effectiveness of three prominent models: BiLSTM (Bidirectional Long Short-Term Memory), BERT (Bidirectional Encoder Representations from Transformers), and Seq2Seq (Sequence to Sequence). Each model was meticulously adapted and fine-tuned to address the unique challenges presented by the Somali language, which is characterized by complex syntactic structures and is underrepresented in language processing research. The BiLSTM model was examined for its sequential data handling capabilities, the BERT model for its deep bidirectional contextual understanding, and the Seq2Seq model for its proficiency in transforming sequences, specifically in error correction tasks. Through rigorous training and testing phases, each model’s performance was evaluated based on accuracy, precision, and recall in detecting and correcting linguistic errors in Somali sentences. The results of this study revealed that the BERT model outperformed the others in terms of overall accuracy (97.34%) and precision (98.13%), particularly in identifying complex grammatical and contextual errors. The research highlights the significance of contextual depth in language processing and demonstrates the potential of BERT in applications in- volving underrepresented languages. The findings also provide insights into the strengths and limitations of each model, contributing valuable knowledge to the field of NLP. This thesis underscores the importance of model selection based on specific linguistic tasks and sets a foundation for future exploration in the adaptation of NLP technologies for other less-commonly studied languages. The successful application of these models in Somali language processing not only advances the field of computational linguistics but also opens new pathways for linguistic inclusivity and diversity in technology.
Bu tez, Somali dilinde hata tespiti ve düzeltimi için gelis¸mis¸ dog?al dil is¸leme (NLP) mod- ellerinin uygulanmasına yönelik kapsamlı bir çalıs¸mayı sunmaktadır; bu alan, hesapla- malı dilbilimde sınırlı bir s¸ekilde aras¸tırılmıs¸tır. Aras¸tırma, üç önemli modelin etkin- lig?ini deg?erlendirmeye ve kars¸ılas¸tırmaya odaklanmaktadır: BiLSTM (?Iki Yönlü Uzun Kısa Süreli Hafıza), BERT (?Iki Yönlü Kodlayıcı Gösterimlerinden Dönüs¸türücüler) ve Seq2Seq (Diziden Diziye). Her bir model, karmas¸ık sözdizimsel yapılarıyla karakter- ize edilen ve dil is¸leme aras¸tırmalarında yetersiz temsil edilen Somali dilinin benzersiz zorluklarını ele alacak s¸ekilde özenle uyarlanmıs¸ ve ince ayarlanmıs¸tır. BiLSTM modeli, ardıs¸ık veri is¸leme kapasitesi açısından; BERT modeli, derin iki yönlü bag?lamsal anlayıs¸ açısından; ve Seq2Seq modeli, özellikle hata düzeltme görevlerinde dizileri dönüs¸türme yeteneg?i açısından incelenmis¸tir. Her bir modelin performansı, So- mali cümlelerindeki dilsel hataları tespit etme ve düzeltme konusunda dog?ruluk, has- sasiyet ve geri çag?ırma üzerinden titiz eg?itim ve test as¸amaları boyunca deg?erlendirilmis¸tir. Bu çalıs¸manın sonuçları, BERT modelinin, özellikle karmas¸ık gramer ve bag?lamsal hata- ları belirleme konusunda genel dog?ruluk (%97.34) ve hassasiyet (%98.13) açısından dig?er- lerini geride bıraktıg?ını göstermis¸tir. Aras¸tırma, dil is¸lemede bag?lamsal derinlig?in önem- ini vurgulamakta ve az temsil edilen dillerle ilgili uygulamalarda BERT’in potansiyelini göstermektedir. Bulgular, her modelin güçlü yönleri ve sınırlamalarına dair içgörüler sag?layarak, NLP alanına deg?erli bilgi katmaktadır. Bu tez, belirli dilsel görevlere dayalı model seçiminin önemini vurgulamakta ve dig?er az incelenen diller için NLP teknolojilerinin uyarlanması konusunda gelecekteki aras¸tır- malar için bir temel olus¸turmaktadır. Bu modellerin Somali dil is¸leme sürecindeki bas¸arılı uygulaması, sadece hesaplamalı dilbilim alanını ilerletmekle kalmamakta, aynı zamanda teknolojide dilbilimsel çes¸itlilig?i ve kapsayıcılıg?ı tes¸vik eden yeni yollar açmaktadır."
Bu tez, Somali dilinde hata tespiti ve düzeltimi için gelis¸mis¸ dog?al dil is¸leme (NLP) mod- ellerinin uygulanmasına yönelik kapsamlı bir çalıs¸mayı sunmaktadır; bu alan, hesapla- malı dilbilimde sınırlı bir s¸ekilde aras¸tırılmıs¸tır. Aras¸tırma, üç önemli modelin etkin- lig?ini deg?erlendirmeye ve kars¸ılas¸tırmaya odaklanmaktadır: BiLSTM (?Iki Yönlü Uzun Kısa Süreli Hafıza), BERT (?Iki Yönlü Kodlayıcı Gösterimlerinden Dönüs¸türücüler) ve Seq2Seq (Diziden Diziye). Her bir model, karmas¸ık sözdizimsel yapılarıyla karakter- ize edilen ve dil is¸leme aras¸tırmalarında yetersiz temsil edilen Somali dilinin benzersiz zorluklarını ele alacak s¸ekilde özenle uyarlanmıs¸ ve ince ayarlanmıs¸tır. BiLSTM modeli, ardıs¸ık veri is¸leme kapasitesi açısından; BERT modeli, derin iki yönlü bag?lamsal anlayıs¸ açısından; ve Seq2Seq modeli, özellikle hata düzeltme görevlerinde dizileri dönüs¸türme yeteneg?i açısından incelenmis¸tir. Her bir modelin performansı, So- mali cümlelerindeki dilsel hataları tespit etme ve düzeltme konusunda dog?ruluk, has- sasiyet ve geri çag?ırma üzerinden titiz eg?itim ve test as¸amaları boyunca deg?erlendirilmis¸tir. Bu çalıs¸manın sonuçları, BERT modelinin, özellikle karmas¸ık gramer ve bag?lamsal hata- ları belirleme konusunda genel dog?ruluk (%97.34) ve hassasiyet (%98.13) açısından dig?er- lerini geride bıraktıg?ını göstermis¸tir. Aras¸tırma, dil is¸lemede bag?lamsal derinlig?in önem- ini vurgulamakta ve az temsil edilen dillerle ilgili uygulamalarda BERT’in potansiyelini göstermektedir. Bulgular, her modelin güçlü yönleri ve sınırlamalarına dair içgörüler sag?layarak, NLP alanına deg?erli bilgi katmaktadır. Bu tez, belirli dilsel görevlere dayalı model seçiminin önemini vurgulamakta ve dig?er az incelenen diller için NLP teknolojilerinin uyarlanması konusunda gelecekteki aras¸tır- malar için bir temel olus¸turmaktadır. Bu modellerin Somali dil is¸leme sürecindeki bas¸arılı uygulaması, sadece hesaplamalı dilbilim alanını ilerletmekle kalmamakta, aynı zamanda teknolojide dilbilimsel çes¸itlilig?i ve kapsayıcılıg?ı tes¸vik eden yeni yollar açmaktadır."
Açıklama
Anahtar Kelimeler
Natural Language Processing, Somali Language, Error Detection, BERT, BiLSTM, Seq2Seq, Computational Linguistics., Dogal Dil ?Is¸leme, Somali Dili, Hata Tespiti, BERT, BiLSTM, Seq2Seq, Hesaplamalı Dilbilim.