PIPELINE CUSTOMIZATION FOR TURKISH DIALOGUE SYSTEMS

ALHINBAZLY, ABDULHAMEED

DSpace Home
→
LİSANSÜSTÜ EĞİTİM ENSTİTÜSÜ
→
Lisansüstü Eğitim Enstitüsü Yüksek LisansTezleri
→
View Item

dc.contributor.author	ALHINBAZLY, ABDULHAMEED
dc.date.accessioned	2022-09-16T11:35:08Z
dc.date.available	2022-09-16T11:35:08Z
dc.date.issued	2022-08
dc.identifier.uri	http://acikerisim.karabuk.edu.tr:8080/xmlui/handle/123456789/2195
dc.description.abstract	ABSTRACT Natural Language Understanding (NLU) is a crucial part of Dialog Systems. This module consists of a pipeline of components responsible for processing user input, extracting the features of the text, and finally, determining what the user wants to achieve by classifying the text to a predefined representation of user intent. Many NLU pipeline components were primarily developed for the English Language; other languages require a varying degree of customization based on how different the Language is from English. In this study, we customized the NLU pipeline for Turkish, the morphologically rich Language that has unique linguistic properties that are different from English, by implementing custom components specific to the Turkish Language taking advantage of Turkish NLP libraries and pre-trained word embedding models that are available in the literature; then, we conducted a series of comparative analyses of multiple NLU pipeline configurations against two main challenges in dialogue systems: the first challenge is dealing with grammatically incorrect or misspelled user input and the second challenge is the ability of the model to correctly identify input that contains synonyms or is semantically similar to training data. The obtained results confirm the advantages of using the Turkish Language-specific components over the default ones; the results also show that dealing with Turkish at the sub-word level helps extract more valuable features from the text for better classification results, and finally, the results show the advantages of incorporating state-of-the-art pre-trained language models in the Turkish language processing pipeline to improve the dialog system's robustness to input noise and generalization to unseen data. ÖZET Doğal Dil Anlama (NLU), Dialog Systems'ın çok önemli bir parçasıdır. Bu modül, kullanıcı girdisini işlemekten, metnin özelliklerini çıkarmaktan ve son olarak, metni kullanıcı amacının önceden tanımlanmış bir temsiline göre sınıflandırarak kullanıcının ne yapmak istediğini belirlemekten sorumlu bir dizi bileşenden oluşur. Birçok NLU ardışık düzen bileşeni, öncelikle İngiliz Dili için geliştirilmiştir; diğer diller, Dilin İngilizce'den ne kadar farklı olduğuna bağlı olarak değişen derecelerde özelleştirme gerektirir. Bu çalışmada, Türkçe NLP kitaplıklarından ve önceden eğitilmiş kelime yerleştirme modellerinden yararlanarak Türkçe'ye özgü özel bileşenler uygulayarak, morfolojik olarak zengin bir dil olan ve İngilizce'den farklı benzersiz dilsel özelliklere sahip Türkçe için NLU ardışık düzenini özelleştirdik. Ardından, diyalog sistemlerindeki iki ana zorluğa karşı çoklu NLU ardışık düzen konfigürasyonlarının bir dizi karşılaştırmalı analizini gerçekleştirdik: ilk zorluk, dilbilgisi açısından yanlış veya yanlış yazılmış kullanıcı girdisiyle uğraşmak ve ikinci zorluk, modelin girdiyi doğru bir şekilde tanımlama yeteneğidir. eşanlamlıları içerirveya semantik olarak eğitim verilerine benzer. Elde edilen sonuçlar, Türkçe'ye özgü bileşenleri varsayılan bileşenlere göre kullanmanın avantajlarını doğrulamaktadır; Sonuçlar ayrıca, Türkçe metnin alt kelime düzeyinde ele alınmasının, daha iyi sınıflandırma sonuçları için metinden daha kullanışlı özelliklerin çıkarılmasına yardımcı olduğunu göstermektedir, ve son olarak, sonuçlar, diyalog sisteminin girdi hatalarına ve görünmeyen verilere genellemeye karşı sağlamlığını geliştirmek için en gelişmiş, önceden eğitilmiş dil modellerini Türkçe dil işleme hattına dahil etmenin avantajlarını göstermektedir..	en_EN
dc.language.iso	en	en_EN
dc.subject	Natural Language Processing, Natural Language Understanding, Turkish Language Processing, Turkish Dialogue Systems, Intent Classification, Entity Recognition, Text Tokenization, Text Representation, Word Embedding, Language Modeling.	en_EN
dc.subject	Doğal Dil İşleme, Doğal Dil Anlama, Türkçe Dil İşleme, Türk Diyalog Sistemleri, Niyet Sınıflandırma, Varlık Tanıma, Metin Tokenizasyon, Metin Temsil, Kelime Gömme, Dil Modelleme.	en_EN
dc.title	PIPELINE CUSTOMIZATION FOR TURKISH DIALOGUE SYSTEMS	en_EN
dc.title.alternative	TÜRK DİYALOG SİSTEMLERİ İÇİN ARDIŞIK DÜZENİ ÖZELLEŞTİRME	en_EN
dc.type	Thesis	en_EN