Karabuk University

PIPELINE CUSTOMIZATION FOR TURKISH DIALOGUE SYSTEMS

Show simple item record

dc.contributor.author ALHINBAZLY, ABDULHAMEED
dc.date.accessioned 2022-09-16T11:35:08Z
dc.date.available 2022-09-16T11:35:08Z
dc.date.issued 2022-08
dc.identifier.uri http://acikerisim.karabuk.edu.tr:8080/xmlui/handle/123456789/2195
dc.description.abstract ABSTRACT Natural Language Understanding (NLU) is a crucial part of Dialog Systems. This module consists of a pipeline of components responsible for processing user input, extracting the features of the text, and finally, determining what the user wants to achieve by classifying the text to a predefined representation of user intent. Many NLU pipeline components were primarily developed for the English Language; other languages require a varying degree of customization based on how different the Language is from English. In this study, we customized the NLU pipeline for Turkish, the morphologically rich Language that has unique linguistic properties that are different from English, by implementing custom components specific to the Turkish Language taking advantage of Turkish NLP libraries and pre-trained word embedding models that are available in the literature; then, we conducted a series of comparative analyses of multiple NLU pipeline configurations against two main challenges in dialogue systems: the first challenge is dealing with grammatically incorrect or misspelled user input and the second challenge is the ability of the model to correctly identify input that contains synonyms or is semantically similar to training data. The obtained results confirm the advantages of using the Turkish Language-specific components over the default ones; the results also show that dealing with Turkish at the sub-word level helps extract more valuable features from the text for better classification results, and finally, the results show the advantages of incorporating state-of-the-art pre-trained language models in the Turkish language processing pipeline to improve the dialog system's robustness to input noise and generalization to unseen data. ÖZET Doğal Dil Anlama (NLU), Dialog Systems'ın çok önemli bir parçasıdır. Bu modül, kullanıcı girdisini işlemekten, metnin özelliklerini çıkarmaktan ve son olarak, metni kullanıcı amacının önceden tanımlanmış bir temsiline göre sınıflandırarak kullanıcının ne yapmak istediğini belirlemekten sorumlu bir dizi bileşenden oluşur. Birçok NLU ardışık düzen bileşeni, öncelikle İngiliz Dili için geliştirilmiştir; diğer diller, Dilin İngilizce'den ne kadar farklı olduğuna bağlı olarak değişen derecelerde özelleştirme gerektirir. Bu çalışmada, Türkçe NLP kitaplıklarından ve önceden eğitilmiş kelime yerleştirme modellerinden yararlanarak Türkçe'ye özgü özel bileşenler uygulayarak, morfolojik olarak zengin bir dil olan ve İngilizce'den farklı benzersiz dilsel özelliklere sahip Türkçe için NLU ardışık düzenini özelleştirdik. Ardından, diyalog sistemlerindeki iki ana zorluğa karşı çoklu NLU ardışık düzen konfigürasyonlarının bir dizi karşılaştırmalı analizini gerçekleştirdik: ilk zorluk, dilbilgisi açısından yanlış veya yanlış yazılmış kullanıcı girdisiyle uğraşmak ve ikinci zorluk, modelin girdiyi doğru bir şekilde tanımlama yeteneğidir. eşanlamlıları içerirveya semantik olarak eğitim verilerine benzer. Elde edilen sonuçlar, Türkçe'ye özgü bileşenleri varsayılan bileşenlere göre kullanmanın avantajlarını doğrulamaktadır; Sonuçlar ayrıca, Türkçe metnin alt kelime düzeyinde ele alınmasının, daha iyi sınıflandırma sonuçları için metinden daha kullanışlı özelliklerin çıkarılmasına yardımcı olduğunu göstermektedir, ve son olarak, sonuçlar, diyalog sisteminin girdi hatalarına ve görünmeyen verilere genellemeye karşı sağlamlığını geliştirmek için en gelişmiş, önceden eğitilmiş dil modellerini Türkçe dil işleme hattına dahil etmenin avantajlarını göstermektedir.. en_EN
dc.language.iso en en_EN
dc.subject Natural Language Processing, Natural Language Understanding, Turkish Language Processing, Turkish Dialogue Systems, Intent Classification, Entity Recognition, Text Tokenization, Text Representation, Word Embedding, Language Modeling. en_EN
dc.subject Doğal Dil İşleme, Doğal Dil Anlama, Türkçe Dil İşleme, Türk Diyalog Sistemleri, Niyet Sınıflandırma, Varlık Tanıma, Metin Tokenizasyon, Metin Temsil, Kelime Gömme, Dil Modelleme. en_EN
dc.title PIPELINE CUSTOMIZATION FOR TURKISH DIALOGUE SYSTEMS en_EN
dc.title.alternative TÜRK DİYALOG SİSTEMLERİ İÇİN ARDIŞIK DÜZENİ ÖZELLEŞTİRME en_EN
dc.type Thesis en_EN


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account