PIPELINE CUSTOMIZATION FOR TURKISH DIALOGUE SYSTEMS

dc.contributor.authorAlhinbazly, Abdulhameed
dc.date.accessioned2022-09-16T11:35:08Z
dc.date.available2022-09-16T11:35:08Z
dc.date.issued2022-08
dc.departmentLisansüstü Eğitim Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalıen_US
dc.description.abstractNatural Language Understanding (NLU) is a crucial part of Dialog Systems. This module consists of a pipeline of components responsible for processing user input, extracting the features of the text, and finally, determining what the user wants to achieve by classifying the text to a predefined representation of user intent. Many NLU pipeline components were primarily developed for the English Language; other languages require a varying degree of customization based on how different the Language is from English. In this study, we customized the NLU pipeline for Turkish, the morphologically rich Language that has unique linguistic properties that are different from English, by implementing custom components specific to the Turkish Language taking advantage of Turkish NLP libraries and pre-trained word embedding models that are available in the literature; then, we conducted a series of comparative analyses of multiple NLU pipeline configurations against two main challenges in dialogue systems: the first challenge is dealing with grammatically incorrect or misspelled user input and the second challenge is the ability of the model to correctly identify input that contains synonyms or is semantically similar to training data. The obtained results confirm the advantages of using the Turkish Language-specific components over the default ones; the results also show that dealing with Turkish at the sub-word level helps extract more valuable features from the text for better classification results, and finally, the results show the advantages of incorporating state-of-the-art pre-trained language models in the Turkish language processing pipeline to improve the dialog system's robustness to input noise and generalization to unseen data.en_US
dc.description.abstractDoğal Dil Anlama (NLU), Dialog Systems'ın çok önemli bir parçasıdır. Bu modül, kullanıcı girdisini işlemekten, metnin özelliklerini çıkarmaktan ve son olarak, metni kullanıcı amacının önceden tanımlanmış bir temsiline göre sınıflandırarak kullanıcının ne yapmak istediğini belirlemekten sorumlu bir dizi bileşenden oluşur. Birçok NLU ardışık düzen bileşeni, öncelikle İngiliz Dili için geliştirilmiştir; diğer diller, Dilin İngilizce'den ne kadar farklı olduğuna bağlı olarak değişen derecelerde özelleştirme gerektirir. Bu çalışmada, Türkçe NLP kitaplıklarından ve önceden eğitilmiş kelime yerleştirme modellerinden yararlanarak Türkçe'ye özgü özel bileşenler uygulayarak, morfolojik olarak zengin bir dil olan ve İngilizce'den farklı benzersiz dilsel özelliklere sahip Türkçe için NLU ardışık düzenini özelleştirdik. Ardından, diyalog sistemlerindeki iki ana zorluğa karşı çoklu NLU ardışık düzen konfigürasyonlarının bir dizi karşılaştırmalı analizini gerçekleştirdik: ilk zorluk, dilbilgisi açısından yanlış veya yanlış yazılmış kullanıcı girdisiyle uğraşmak ve ikinci zorluk, modelin girdiyi doğru bir şekilde tanımlama yeteneğidir. eşanlamlıları içerirveya semantik olarak eğitim verilerine benzer. Elde edilen sonuçlar, Türkçe'ye özgü bileşenleri varsayılan bileşenlere göre kullanmanın avantajlarını doğrulamaktadır; Sonuçlar ayrıca, Türkçe metnin alt kelime düzeyinde ele alınmasının, daha iyi sınıflandırma sonuçları için metinden daha kullanışlı özelliklerin çıkarılmasına yardımcı olduğunu göstermektedir, ve son olarak, sonuçlar, diyalog sisteminin girdi hatalarına ve görünmeyen verilere genellemeye karşı sağlamlığını geliştirmek için en gelişmiş, önceden eğitilmiş dil modellerini Türkçe dil işleme hattına dahil etmenin avantajlarını göstermektedir.."en_US]
dc.identifier.urihttps://hdl.handle.net/20.500.14619/2195
dc.identifier.urihttps://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=RsTBl6RWK25OBMIKtIgYYXEFzZmPVR1VHrQeBoVVU3GEtvUr8FTC-mYnmc4ZcXNj
dc.identifier.yoktezid756351en_US
dc.language.isoenen_US
dc.relation.publicationcategoryTezen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectNatural Language Processingen_US
dc.subjectNatural Language Understandingen_US
dc.subjectTurkish Language Processingen_US
dc.subjectTurkish Dialogue Systemsen_US
dc.subjectIntent Classificationen_US
dc.subjectEntity Recognitionen_US
dc.subjectText Tokenizationen_US
dc.subjectText Representationen_US
dc.subjectWord Embeddingen_US
dc.subjectLanguage Modeling.en_US
dc.subjectDoğal Dil İşlemeen_US
dc.subjectDoğal Dil Anlamaen_US
dc.subjectTürkçe Dil İşlemeen_US
dc.subjectTürk Diyalog Sistemlerien_US
dc.subjectNiyet Sınıflandırmaen_US
dc.subjectVarlık Tanımaen_US
dc.subjectMetin Tokenizasyonen_US
dc.subjectMetin Temsilen_US
dc.subjectKelime Gömmeen_US
dc.subjectDil Modelleme.en_US
dc.titlePIPELINE CUSTOMIZATION FOR TURKISH DIALOGUE SYSTEMSen_US
dc.title.alternativeTÜRK DİYALOG SİSTEMLERİ İÇİN ARDIŞIK DÜZENİ ÖZELLEŞTİRMEen_US
dc.typeMaster Thesisen_US

Dosyalar

Orijinal paket
Listeleniyor 1 - 1 / 1
Yükleniyor...
Küçük Resim
İsim:
10493305.pdf
Boyut:
1010 KB
Biçim:
Adobe Portable Document Format
Açıklama:
Lisans paketi
Listeleniyor 1 - 1 / 1
Küçük Resim Yok
İsim:
license.txt
Boyut:
1.71 KB
Biçim:
Item-specific license agreed upon to submission
Açıklama: