SÜRÜ ZEKASI YÖNTEMLERİ İLE APACHE SPARK DESTEKLİ VERİ KÜMELEME

AÇMALI, Şüheda Semih

DSpace Home
→
LİSANSÜSTÜ EĞİTİM ENSTİTÜSÜ
→
Lisansüstü Eğitim Enstitüsü Yüksek LisansTezleri
→
View Item

dc.contributor.author	AÇMALI, Şüheda Semih
dc.date.accessioned	2021-04-12T13:31:54Z
dc.date.available	2021-04-12T13:31:54Z
dc.date.issued	2021-03-11
dc.identifier.uri	http://acikerisim.karabuk.edu.tr:8080/xmlui/handle/123456789/1197
dc.description.abstract	ÖZET Son yıllarda internet kullanımın artması ve her şeyin sanal ortamda saklanmasından dolayı, yüksek hacimli ve farklı türlerde (görüntü, ses, metin, sayısal değerler) veriler üretilmektedir. Bu verilerin büyük çoğunluğu etiketlenmemiş verilerden oluşmaktadır. Veri kümeleme işlemi veri madenciliğinin en önemli problemlerinden biridir. Bu problem, veri setini belirli bir sayıda farklı gruba bölen bir minimizasyon problemi olarak ele alınabilir. Bu tür minimizasyon problemlerinin çözümünde sıklıkla meta-sezgisel algoritmalar kullanılmaktadır. Bu çalışmada veri kümeleme probleminin çözümü için Armoni Arama (HS), Gri Kurt Optimizasyon (GWO) ve Yapay Alg Kolonisi (AAA) algoritmaları kullanılmıştır. Ayrıca büyük hacimli verilerin kümelemesi yapıldığı için Apache Spark teknolojisinin dağıtık hesaplama modeli işlem süresini kısaltmak için kullanılmıştır. Apache Spark mimari olarak sürücü ve işçi düğümlerden oluşur. Sürücü düğüm işlemleri dağıtmak, organize etmek ve toplama görevlerini üstlenirken, işçi düğümler verilen işlemi yapmak ve sürücü düğüme sonuçları vermekle görevlidirler. Yapılan testler sonucunda artan düğüm sayısının işlem süresini kısalttığı görülmektedir. ABSTRACT In recent years, high volume and different types of data (image, sound, text, numerical values, etc.) are produced due to increasing internet usage and everything stored digitally. Most of these data consists of unlabeled data. Data labeling (clustering) is one of the most important problems of data mining. This problem can be considered as a minimization problem that divides the data into a certain number of different groups. Meta-heuristic algorithms are often used to solve such minimazition problems. In this thesis, harmony search, gray wolf optimizer, and artificial algae colony algorithms are used to solve this data clustering problem. In addition, the distributed computing model of Apach Spark is used to shorten the running time because large volume data is clustered. Apache Spark architecture consists of driver and worker nodes. The driver node takes over the tasks of distibuting, organizing, and aggregating processes, while the worker nodes are tasked to perform the given process and delivering results to the driver node. The results of the experimental studies revealed the increasing number of nodes shortens the running time.	en_EN
dc.language.iso	tr	en_EN
dc.subject	Meta-Sezgisel algoritmalar, armoni arama algoritması, gri kurt optimizasyon algoritması, yapay alg algoritması, veri kümeleme, büyük veri, Apache Spark.	en_EN
dc.subject	Meta-heuristic algorithms, harmony search algorithm, grey wolf optimization algorithm, artificial algae algorithm, data clustering, big data, Apache Spark.	en_EN
dc.title	SÜRÜ ZEKASI YÖNTEMLERİ İLE APACHE SPARK DESTEKLİ VERİ KÜMELEME	en_EN
dc.title.alternative	DATA CLUSTERING WITH SWARM INTELLIGENCE METHODS SUPPORTED APACHE SPARK	en_EN
dc.type	Thesis	en_EN