Karabuk University

TURKISH TEXT GENERATION WITH GENERATIVE ADVERSARIAL NETWORKS

Show simple item record

dc.contributor.author GÜCÜK, Barış
dc.date.accessioned 2021-02-24T10:47:50Z
dc.date.available 2021-02-24T10:47:50Z
dc.date.issued 2021-02-22
dc.identifier.uri http://acikerisim.karabuk.edu.tr:8080/xmlui/handle/123456789/1124
dc.description.abstract ÖZET Makinelerin çeşitli algoritmalar aracılığı ile kendisine verilen örneklerden öğrenip, gelecek durumlar için tahminlerde bulunmasına makine öğrenmesi denir. Makine öğrenmesi yöntemlerinde eğitim aşamasının başarısı için kullanılan eğitim veri seti kümesi oldukça önemlidir. Doğal dil işlemede en çok karşılaşılan problemlerden birisi yeterli veri bulunamaması veya bulunan verilerin etiketsiz olmasıdır. Özellikle sınıflandırma problemlerinde belirli bir sınıftaki verinin azlığı sınıflandırmanın başarısını düşürmektedir. Bu problemin doğal dil işleme alanında çözümü için metin üretimi kullanılmaktadır. Metin üretimi, metnin ayrık doğası ve sözlükte bulunmayan farklı yüzey formlarına sahip olduğundan çözülmesi zor bir problemdir. Bu çalışmada veri kümesinde bulunan metinlerin arttırılması amacı ile üretken rakip ağlar yöntemi kullanılmıştır. Üretilen bu metinlerin konuşma diline yakın olması amaçlanmıştır. Çalışmada morfolojik açıdan zengin bir dil olan Türkçe üzerinde üretken rakip ağlar kullanılarak normal dağılımlı olmayan bir veri setindeki eksik sınıfa ait metinlerin üretimi yapılmıştır. Çalışmada problem olarak haber metinlerinin olumlu veya olumsuz olarak sınıflandırılması ele alınmıştır. Oluşturulan veri kümesinde toplam 3058 haber metni bulunmaktadır. Bu haber metinlerinin 2949 tanesi olumlu 109 tanesi olumsuz sınıfa aittir. Olumsuz sınıfa ait örneklerin az olması nedeniyle bu sınıfta başarının düşük olduğu gözlenmiştir. Ardından, üretken rakip ağ ile olumsuz sınıftaki veriler test aşamasında 50 örnekten başlayarak 2750 örneğe kadar çoğaltılmıştır. Elde edilen sonuçlar n-gram, destek vektör makinesi, TF-IDF ve lojistik regresyon gibi makine öğrenmesi teknikleriyle birlikte kullanılarak performansları değerlendirilmiştir. Elde edilen sonuçlara göre üretken rakip ağların Türkçe metin üretimi için kullanılması sınıflandırma başarısını yaklaşık % 47 oranında arttırmıştır. Sınıflara ait örnek sayılarında aşırı farklılık olduğu durumda başarı oldukça düşük çıkmakta, örnek sayısı yapay zekâ ile artırıldığında ise başarı % 90 üzerine çıkmaktadır. Ayrıca üretilen sonuçlar incelendiğinde çalışmada kurulan model ile konuşma diline yakın cümleler üretilebileceği gözlenmiştir. ABSTRACT Machine learning is when machines learn from the examples given to them through various algorithms and make predictions for future situations. The training data set used for the success of the training phase in machine learning methods is very important. One of the most common problems in natural language processing is the lack of sufficient data or the untagged data found. Especially in classification problems, the scarcity of data in a certain class reduces the success of the classification. Text generation is used to solve this problem in natural language processing. Text generation is a difficult problem to solve as it has the discrete nature of the text and different surface forms not found in the dictionary. In this study, generative adversarial network method was used to increase the texts in the data set. These texts are aimed to be close to the spoken language. In the study, texts belonging to the missing class in a non-normally distributed data set were produced by using generative adversarial network in Turkish, a morphologically rich language. The problem of the study is to categorize news texts as positive or negative. There is a total of 3058 news texts in the data set created. 2949 of these news texts belong to the positive and 109 of them belong to the negative category. It was observed that success was low in this class due to the small number of samples belonging to the negative class. Then, with the generative adversarial network, data in the negative class were replicated from 50 samples to 2750 samples in the test phase. The results obtained were evaluated together with machine learning techniques such as n-grams, support vector machine, TF-IDF and logistic regression. According to the results, the use of generative adversarial network for Turkish text generation increased the success of classification by approximately 47%. In cases where there is an excessive difference in the number of samples belonging to the classes, the success is low, and when the number of samples is increased with artificial intelligence, the success increases over 90%. In addition, when the results produced were examined, it was observed that sentences close to the spoken language could be produced with the model established in the study. en_EN
dc.language.iso tr en_EN
dc.subject Doğal dil işleme, üretken rakip ağlar, metin üretimi, sınıflandırma. en_EN
dc.subject Natural language processing, generative adversarial networks, text generation, classification. en_EN
dc.title TURKISH TEXT GENERATION WITH GENERATIVE ADVERSARIAL NETWORKS en_EN
dc.title.alternative ÜRETKEN RAKİP AĞLAR İLE TÜRKÇE METİN ÜRETİMİ en_EN
dc.type Thesis en_EN


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account