Karabuk University

SÜRÜ ZEKASI YÖNTEMLERİ İLE APACHE SPARK DESTEKLİ VERİ KÜMELEME

Show simple item record

dc.contributor.author AÇMALI, Şüheda Semih
dc.date.accessioned 2021-04-12T13:31:54Z
dc.date.available 2021-04-12T13:31:54Z
dc.date.issued 2021-03-11
dc.identifier.uri http://acikerisim.karabuk.edu.tr:8080/xmlui/handle/123456789/1197
dc.description.abstract ÖZET Son yıllarda internet kullanımın artması ve her şeyin sanal ortamda saklanmasından dolayı, yüksek hacimli ve farklı türlerde (görüntü, ses, metin, sayısal değerler) veriler üretilmektedir. Bu verilerin büyük çoğunluğu etiketlenmemiş verilerden oluşmaktadır. Veri kümeleme işlemi veri madenciliğinin en önemli problemlerinden biridir. Bu problem, veri setini belirli bir sayıda farklı gruba bölen bir minimizasyon problemi olarak ele alınabilir. Bu tür minimizasyon problemlerinin çözümünde sıklıkla meta-sezgisel algoritmalar kullanılmaktadır. Bu çalışmada veri kümeleme probleminin çözümü için Armoni Arama (HS), Gri Kurt Optimizasyon (GWO) ve Yapay Alg Kolonisi (AAA) algoritmaları kullanılmıştır. Ayrıca büyük hacimli verilerin kümelemesi yapıldığı için Apache Spark teknolojisinin dağıtık hesaplama modeli işlem süresini kısaltmak için kullanılmıştır. Apache Spark mimari olarak sürücü ve işçi düğümlerden oluşur. Sürücü düğüm işlemleri dağıtmak, organize etmek ve toplama görevlerini üstlenirken, işçi düğümler verilen işlemi yapmak ve sürücü düğüme sonuçları vermekle görevlidirler. Yapılan testler sonucunda artan düğüm sayısının işlem süresini kısalttığı görülmektedir. ABSTRACT In recent years, high volume and different types of data (image, sound, text, numerical values, etc.) are produced due to increasing internet usage and everything stored digitally. Most of these data consists of unlabeled data. Data labeling (clustering) is one of the most important problems of data mining. This problem can be considered as a minimization problem that divides the data into a certain number of different groups. Meta-heuristic algorithms are often used to solve such minimazition problems. In this thesis, harmony search, gray wolf optimizer, and artificial algae colony algorithms are used to solve this data clustering problem. In addition, the distributed computing model of Apach Spark is used to shorten the running time because large volume data is clustered. Apache Spark architecture consists of driver and worker nodes. The driver node takes over the tasks of distibuting, organizing, and aggregating processes, while the worker nodes are tasked to perform the given process and delivering results to the driver node. The results of the experimental studies revealed the increasing number of nodes shortens the running time. en_EN
dc.language.iso tr en_EN
dc.subject Meta-Sezgisel algoritmalar, armoni arama algoritması, gri kurt optimizasyon algoritması, yapay alg algoritması, veri kümeleme, büyük veri, Apache Spark. en_EN
dc.subject Meta-heuristic algorithms, harmony search algorithm, grey wolf optimization algorithm, artificial algae algorithm, data clustering, big data, Apache Spark. en_EN
dc.title SÜRÜ ZEKASI YÖNTEMLERİ İLE APACHE SPARK DESTEKLİ VERİ KÜMELEME en_EN
dc.title.alternative DATA CLUSTERING WITH SWARM INTELLIGENCE METHODS SUPPORTED APACHE SPARK en_EN
dc.type Thesis en_EN


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account