KELİME GÖMME VEKTÖRLERİNİN GRAF DÖNÜŞÜMÜ YOLUYLA METİN SINIFLANDIRMADA KULLANIMI

Yükleniyor...
Küçük Resim

Tarih

2023-07

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Metin sınıflandırma, dijital ortamda sürekli artan miktardaki metin tabanlı belgelerin otomatik sınıflandırılması için yapay zekânın önemli bir uygulama şekli olarak karşımıza çıkmaktadır. Ulaşılabilir verinin üssel biçimde artması, metinleri hızlı biçimde işlemeye olan ihtiyaç, bilgisayarların depolama ve işlem gücünün artması, makine öğrenmesi yöntemlerindeki gelişmeler, bu alanın popülerliğini destekleyen faktörler olarak öne çıkmaktadır. Araştırmacılar metin sınıflandırması için birçok makine öğrenimi yaklaşımı ile doğal dil işlemede üstün sonuçlar elde etmiştir. Bu yaklaşımların başarısı, karmaşık modelleri ve veriler içindeki doğrusal olmayan ilişkileri anlama kapasitelerine bağlıdır. Bu noktada, graf tabanlı yaklaşımlar son yıllarda tercih edilen yöntemler arasında yer almaya başlamıştır. Öte yandan metin gömme (embedding) tekniklerindeki gelişmeler, kelimelerin anlam yükünü taşıyan vektörlerle ifade edilmesini, dolayısıyla yakın anlamlı kelimelerin de benzer sınıflandırma sonuçlarını doğurmasını sağlamış, metin sınıflandırmada önemli bir çığır açmıştır. Bu tez çalışmasında, literatürde sıkça kullanılan metin gömme teknikleri olan Word2Vec, GloVe, FastText ve BERT algoritmaları kullanılarak, değişken öznitelik sayısı altında yapay sinir ağları (YSA) ve derin öğrenme yöntemleri ile metin sınıflandırma yapılmış, ideal metin gömme tekniği ve öznitelik sayısının tespiti sağlanmıştır. Öznitelik belirlenmesinde, ki-kare ağırlık yönteminden yararlanılmıştır. Aynı zamanda sınıflandırma aşaması öncesinde dokümanları temsil eden vektörler görünürlük grafları (visibility graph) yaklaşımı ile graf temsillerine dönüştürülerek evrişimli sinir ağı (CNN) ile sınıflandırılmış, graf tabanlı temsillerin başarısı test edilmiştir. 2 boyutlu graf yapısı kullanılarak CNN ile karşılaştırılan bu model, diğer geleneksel yöntemlere göre daha başarılı olduğu gözlemlenmiştir. Geleneksel yöntemler ve oluşturulan graf temsilli öğrenme yaklaşımı arasında şeffaf bir karşılaştırma yapabilmek için grafları ifade eden bağlantı matrisleri tek boyuta indirgenerek YSA yöntemi ile sınıflandırma yapılmış olup %91.2 oranında bir hassasiyet elde edilmiştir. Sonuçlar, graf temsilli yaklaşımın, geleneksel metin gömme teknikleri ile karşılaştırıldığında daha başarılı olduğunu göstermektedir. Geleneksel yöntemler arasında ise BERT’in diğer yöntemlere göre daha iyi performans gösterdiğini, FastText’in 500 kelimeye kadarki öznitelik sayıları için BERT’e yakın sonuçlar verdiğini, GloVe’un ise en düşük sınıflandırma performansı ile rekabetçi olmaktan uzak olduğunu ortaya koymaktadır. Bu tez çalışması, literatürde değişken öznitelik koşulu altında kelime gömme vektörlerinin görünürlük grafına dönüştürüldüğü ilk çalışma olarak öne çıkmaktadır.
Text classification emerges as an important application form of artificial intelligence for the automatic classification of the ever-increasing amount of text-based documents in the digital environment. The exponential increase in accessible data, the need to process texts quickly, the increase in the storage and processing power of computers, and the developments in machine learning methods stand out as the factors supporting the popularity of this field. Researchers have achieved superior results in natural language processing with many machine learning approaches for text classification. The success of these approaches depends on their capacity to understand complex models and nonlinear relationships within data. At this point, graph-based approaches have started to be among the preferred methods in recent years. On the other hand, the developments in text embedding techniques have enabled words to be expressed with vectors that carry semantic load, thus causing similar classification results for words with similar meanings, breaking new ground in text classification. In this thesis, using Word2Vec, GloVe, FastText and BERT algorithms, which are frequently used text embedding techniques in the literature, text classification was made under variable feature count with artificial neural networks (ANN) and deep learning methods, ideal text embedding technique and the number of features were determined. Chi-square weight method was used for feature determination. At the same time, before the classification stage, vectors representing documents were converted into graph representations with the visibility graph approach and classified with a convolutional neural network (CNN), and the success of graph-based representations was tested. This model, which is compared with CNN using 2D graph structure, has been observed to be more successful than other traditional methods. In order to make a transparent comparison between traditional methods and the generated graph representation learning approach, the connection matrices expressing the graphs were reduced to one dimension and the classification was made with the ANN method, and a sensitivity of %91.2 was obtained. The results show that the graph representation approach is more successful compared to traditional text embedding techniques. Among the traditional methods, it reveals that BERT outperforms other methods, FastText gives close results to BERT for attribute counts up to 500 words, while GloVe is far from competitive with the lowest classification performance. This thesis study stands out as the first study in the literature in which word embedding vectors are transformed into visibility graphs under variable attribute condition."

Açıklama

Anahtar Kelimeler

Graf temsilli öğrenme, metin sınıflandırma, derin öğrenme, doğal dil işleme, Network Representation Learning, Text Classification, Deep Learning, Natural Language Processing.

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye