SENTIMENT ANALYSIS AND CLASSIFICATION OF TWEETS BASED ON MACHINE LEARNING

SHIHAB, FIRAS FADHIL SHIHAB

DSpace Home
→
LİSANSÜSTÜ EĞİTİM ENSTİTÜSÜ
→
Lisansüstü Eğitim Enstitüsü Yüksek LisansTezleri
→
View Item

dc.contributor.author	SHIHAB, FIRAS FADHIL SHIHAB
dc.date.accessioned	2022-07-07T13:53:55Z
dc.date.available	2022-07-07T13:53:55Z
dc.date.issued	2022-06
dc.identifier.uri	http://acikerisim.karabuk.edu.tr:8080/xmlui/handle/123456789/2006
dc.description.abstract	ABSTRACT Sentiment analysis is a technique for mining online forums like Twitter for information about people's thoughts, feelings, and attitudes. It has grown in popularity as a source of study. Conventional sentiment analysis focuses mostly on textual data. Twitter is the most well-known micro-blogging social networking service, where users send out short messages (called "tweets") on a variety of subjects. In recent years, Twitter data has been utilized to improve political campaigns, product quality, and sentiment analysis. This study proposes the use of a machine learning classifier to assist in sentiment analysis for these organizations. Based on the content and tone of the tweets, tweets were classified into three categories: positive, negative, and neutral. Extracted Twitter data has been preprocessed in 11 stages in order to ensure classification accuracy when using feature extraction algorithms such as Term Frequencies and Inverse Document Frequencies (TF-IDF). According to these results, ensemble classifiers outperform non-ensemble classifiers. According to tests, machine learning Classifiers may be improved by using TF-IDF as a feature extraction method. The Word to Vector (W2V) feature extraction process is less efficient than the TF-IDF feature extraction process. TF-IDF and the Bag of Words (BoW) were then picked as lexicon-based techniques deployed. Based on the results five machine learning models have been used to illustrate the best-categorized methods for region-based Twitter sentiment analysis. As it turned out, the Extra Trees classifier outperformed the BoW and linear classifiers for the TF-IDF feature in terms of performance. Using logistic regression, the provided classifiers outperformed their counterparts (LR). The results evaluation performance has been the F1 score of 0.6133 and an accuracy of 0.9616. ÖZET Duygu analizi, insanların düşünceleri, duyguları ve tutumları hakkında bilgi almak için Twitter gibi çevrimiçi forumlarda madencilik yapmak için kullanılan bir tekniktir. Bir çalışma kaynağı olarak popülerlik kazanmıştır. Geleneksel duygu analizi, çoğunlukla metinsel verilere odaklanır. Twitter, kullanıcıların çeşitli konularda kısa mesajlar ("tweetler" olarak adlandırılır) gönderdiği en iyi bilinen mikro blog sosyal ağ hizmetidir. Son yıllarda, siyasi kampanyaları, ürün kalitesini ve duygu analizini iyileştirmek için Twitter verileri kullanıldı. Bu çalışma, bu kuruluşlar için duygu analizine yardımcı olması için bir makine öğrenimi sınıflandırıcısının kullanımını önermektedir. Tweetlerin içeriğine ve tonuna göre, tweetler olumlu, olumsuz ve nötr olmak üzere üç kategoriye ayrıldı. Çıkarılan Twitter verileri, Terim Frekansları ve Ters Belge Frekansları (TF-IDF) gibi özellik çıkarma algoritmaları kullanılırken sınıflandırma doğruluğunu sağlamak için 11 aşamada ön işleme tabi tutulmuştur. Bu sonuçlara göre, topluluk sınıflandırıcıları, topluluk olmayan sınıflandırıcılardan daha iyi performans göstermektedir. Testlere göre, makine öğrenmesi öznitelik çıkarma yöntemi olarak TF-IDF kullanılarak sınıflandırıcılar geliştirilebilir. Word'den Vektöre (W2V) özellik çıkarma işlemi, TF-IDF özellik çıkarma işleminden daha az verimlidir. TF-IDF ve The Bag of Words (BoW) daha sonra konuşlandırılan sözlük tabanlı teknikler olarak seçildi. Sonuçlara dayalı olarak, bölgeye dayalı Twitter duygu analizi için en iyi kategorize edilmiş yöntemleri göstermek için beş makine öğrenimi modeli kullanılmıştır. Sonuç olarak, Ekstra Ağaçlar sınıflandırıcısı, performans açısından TF-IDF özelliği için BoW ve doğrusal sınıflandırıcılardan daha iyi performans gösterdi. Lojistik regresyon kullanarak, sağlanan sınıflandırıcılar benzerlerinden (LR) daha iyi performans gösterdi. Sonuç değerlendirme performansı, 0,6133 F1 puanı ve 0,9616 doğruluk olmuştur.	en_EN
dc.language.iso	en	en_EN
dc.subject	Text classification, feature extraction, sentiment analysis, TF-IDF, machine learning, BoW, natural language processing.	en_EN
dc.subject	Metin sınıflandırma, özellik çıkarma, duygu analizi, TF-IDF, makine öğrenimi, BoW, doğa dili işleme.	en_EN
dc.title	SENTIMENT ANALYSIS AND CLASSIFICATION OF TWEETS BASED ON MACHINE LEARNING	en_EN
dc.title.alternative	MAKİNE ÖĞRENİMİNE GÖRE TWEETLERİN DUYGU ANALİZİ VE SINIFLANDIRILMASI	en_EN
dc.type	Thesis	en_EN