SENTIMENT ANALYSIS OF ARABS IN TURKEY USING DEEP LEARNING ON SOCIAL MEDIA DATA
Yükleniyor...
Dosyalar
Tarih
2022-09
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Social Media (SM) has attracted many people from different races and cultures as people consider SM sites as a sharing point where they can freely and uninterruptedly express their opinions. Since many shares are made on SM sites, high-dimensional data is generated. Innovative and more efficient methods for processing this data are being developed. Researchers are interested in sentiment analysis studies that allow more effective and accurate analysis. This thesis presents a new data set about Arab opinions about Turkey collected from Twitter and the Arabic Sentiment Analysis (ASA) on this dataset. Twitter, one of the most important social networking sites today, allows collecting tweets via API, analyzing them differently, and developing software studies. Our data set is multi-dialectic Arabic and has multiple fields, such as Turkish economy, tourism, food, and politics, which makes our job even more difficult. After collecting the tweets, they were hand-crafted as positive and negative emotions according to their content and converted into an annotated data set. The data set contains 3136 tweets divided into 1583 positive and 1553 negative ones. A deep learning-based Arabic sentiment analysis (ASA) approach has been proposed to classify the newly created dataset as positive or negative emotions according to its content. Word2Vec and Bidirectional Encoder Representations (AraBERT) are used in the proposed ASA approach to extract features. Then, bidirectional long short-term memory, Convolutional neural networks, and feedforward neural networks were applied for the binary classification. In addition, a transformer auto classifier based on AraBERT has been applied for the ASA approach. This study determined that the pre-trained AraBERT outperformed Word2Vec and the automatic classifier provided the highest accuracy. ?
Günümüzde insanlar sosyal medyayı fikirlerini özgürce ve kesintisiz olarak ifade edebilecekleri bir paylaşım noktası olarak değerlendirmektedir. İnsanlar anlık haber takibi, haberlerin ya da yapılan paylaşımların altına duygu ve düşüncelerini yorum olarak yazmaktadırlar. Sosyal Medya sitelerinde çok sayıda paylaşım yapıldığından yüksek boyutlarda veri oluşmaktadır. Bu verilen işlenmesi için yenilikçi ve daha etkin yöntemler geliştirilmektedir. Aaraştırmacılar, daha etkili ve doğru analizlere olanak sağlayan duygu analizi çalışmalarıyla ilgilenmektedir. Bu tez, Türkiye'nin Arap görüşleri hakkında Twitter'dan toplanan yeni bir veri seti ve bu veriseti üzerinde yapılan Arapça duygu analizlerini sunmaktadır (Arabic Sentiment Analysis, ASA). Günümüzde en önemli sosyal paylaşım sitelerinden biri olan Twitter, API üzerinden twitleri toplamasına ve bunlar üzerinden farklı analiz yapılmasına ayrıca yazılım çalışmaları geliştirmelerine olanak sağlamaktadır. Veri setimizin çok lehçeli Arapça olması ve Türkiye ekonomisi, turizm, gıda ve siyaset gibi çoklu alan olması işimizi daha da zorlaştırmaktadır. Twitler topladıktan sonra içeriğine göre olumlu ve olumsuz duygular şeklinde elle etiketlenerek veri setine dönüştürülmüştür. Veri seti 1583 olumlu ve 1553 olumsuz olmak üzere toplam 3136 tweet içermektedir. Yeni oluşturulan veri setini içeriğine göre olumlu veya olumsuz duygular olarak sınıflandırmak için derin öğrenmeye dayalı bir Arapça duygu analizi (Arabic sentiment analysis, ASA) yaklaşımı önerilmiştir. Önerilen ASA yaklaşımında, öznitelik çıkarmak için Word2Vec ve Arapça Dönüştürücülerden Çift Yönlü Kodlayıcı Temsilleri (AraBERT) kullanılmıştır. Daha sonra ikili sınıflandırma için çift yönlü uzun kısa süreli bellek, Evrişimli sinir ağları ve ileri beslemeli sinir ağları uygulanmıştır. Ayrıca, ASA yaklaşımı için AraBERT tabanlı bir transformatör otomatik sınıflandırıcı uygulanmıştır. Bu çalışmada, önceden eğitilmiş AraBERT'in Word2Vec'ten daha iyi performans gösterdiği ve otomatik sınıflandırıcının en yüksek doğruluğu sağladığı tespit edilmiştir."
Günümüzde insanlar sosyal medyayı fikirlerini özgürce ve kesintisiz olarak ifade edebilecekleri bir paylaşım noktası olarak değerlendirmektedir. İnsanlar anlık haber takibi, haberlerin ya da yapılan paylaşımların altına duygu ve düşüncelerini yorum olarak yazmaktadırlar. Sosyal Medya sitelerinde çok sayıda paylaşım yapıldığından yüksek boyutlarda veri oluşmaktadır. Bu verilen işlenmesi için yenilikçi ve daha etkin yöntemler geliştirilmektedir. Aaraştırmacılar, daha etkili ve doğru analizlere olanak sağlayan duygu analizi çalışmalarıyla ilgilenmektedir. Bu tez, Türkiye'nin Arap görüşleri hakkında Twitter'dan toplanan yeni bir veri seti ve bu veriseti üzerinde yapılan Arapça duygu analizlerini sunmaktadır (Arabic Sentiment Analysis, ASA). Günümüzde en önemli sosyal paylaşım sitelerinden biri olan Twitter, API üzerinden twitleri toplamasına ve bunlar üzerinden farklı analiz yapılmasına ayrıca yazılım çalışmaları geliştirmelerine olanak sağlamaktadır. Veri setimizin çok lehçeli Arapça olması ve Türkiye ekonomisi, turizm, gıda ve siyaset gibi çoklu alan olması işimizi daha da zorlaştırmaktadır. Twitler topladıktan sonra içeriğine göre olumlu ve olumsuz duygular şeklinde elle etiketlenerek veri setine dönüştürülmüştür. Veri seti 1583 olumlu ve 1553 olumsuz olmak üzere toplam 3136 tweet içermektedir. Yeni oluşturulan veri setini içeriğine göre olumlu veya olumsuz duygular olarak sınıflandırmak için derin öğrenmeye dayalı bir Arapça duygu analizi (Arabic sentiment analysis, ASA) yaklaşımı önerilmiştir. Önerilen ASA yaklaşımında, öznitelik çıkarmak için Word2Vec ve Arapça Dönüştürücülerden Çift Yönlü Kodlayıcı Temsilleri (AraBERT) kullanılmıştır. Daha sonra ikili sınıflandırma için çift yönlü uzun kısa süreli bellek, Evrişimli sinir ağları ve ileri beslemeli sinir ağları uygulanmıştır. Ayrıca, ASA yaklaşımı için AraBERT tabanlı bir transformatör otomatik sınıflandırıcı uygulanmıştır. Bu çalışmada, önceden eğitilmiş AraBERT'in Word2Vec'ten daha iyi performans gösterdiği ve otomatik sınıflandırıcının en yüksek doğruluğu sağladığı tespit edilmiştir."
Açıklama
Anahtar Kelimeler
Artificial intelligence, Arabic sentiment analysis, data mining, deep learning, Natural language processing, Word embedding, social media, Twitter., Yapay zeka, Arapça duygu analizi, veri madenciliği, derin öğrenme, Doğal dil işleme, Kelime yerleştirme, sosyal medya, Twitter.