Açmalı, Şüheda Semih2021-04-122021-04-122021-03-11https://hdl.handle.net/20.500.14619/1197https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=8tbPippmWV_b-Irrn9YEAsHHtsDJi0uHi34GENZI9QgYbWU9uEn853dNooqG4IQLSon yıllarda internet kullanımın artması ve her şeyin sanal ortamda saklanmasından dolayı, yüksek hacimli ve farklı türlerde (görüntü, ses, metin, sayısal değerler) veriler üretilmektedir. Bu verilerin büyük çoğunluğu etiketlenmemiş verilerden oluşmaktadır. Veri kümeleme işlemi veri madenciliğinin en önemli problemlerinden biridir. Bu problem, veri setini belirli bir sayıda farklı gruba bölen bir minimizasyon problemi olarak ele alınabilir. Bu tür minimizasyon problemlerinin çözümünde sıklıkla meta-sezgisel algoritmalar kullanılmaktadır. Bu çalışmada veri kümeleme probleminin çözümü için Armoni Arama (HS), Gri Kurt Optimizasyon (GWO) ve Yapay Alg Kolonisi (AAA) algoritmaları kullanılmıştır. Ayrıca büyük hacimli verilerin kümelemesi yapıldığı için Apache Spark teknolojisinin dağıtık hesaplama modeli işlem süresini kısaltmak için kullanılmıştır. Apache Spark mimari olarak sürücü ve işçi düğümlerden oluşur. Sürücü düğüm işlemleri dağıtmak, organize etmek ve toplama görevlerini üstlenirken, işçi düğümler verilen işlemi yapmak ve sürücü düğüme sonuçları vermekle görevlidirler. Yapılan testler sonucunda artan düğüm sayısının işlem süresini kısalttığı görülmektedir.In recent years, high volume and different types of data (image, sound, text, numerical values, etc.) are produced due to increasing internet usage and everything stored digitally. Most of these data consists of unlabeled data. Data labeling (clustering) is one of the most important problems of data mining. This problem can be considered as a minimization problem that divides the data into a certain number of different groups. Meta-heuristic algorithms are often used to solve such minimazition problems. In this thesis, harmony search, gray wolf optimizer, and artificial algae colony algorithms are used to solve this data clustering problem. In addition, the distributed computing model of Apach Spark is used to shorten the running time because large volume data is clustered. Apache Spark architecture consists of driver and worker nodes. The driver node takes over the tasks of distibuting, organizing, and aggregating processes, while the worker nodes are tasked to perform the given process and delivering results to the driver node. The results of the experimental studies revealed the increasing number of nodes shortens the running time."trinfo:eu-repo/semantics/openAccessMeta-Sezgisel algoritmalararmoni arama algoritmasıgri kurt optimizasyon algoritmasıyapay alg algoritmasıveri kümelemebüyük veriApache Spark.Meta-heuristic algorithmsharmony search algorithmgrey wolf optimization algorithmartificial algae algorithmdata clusteringbig dataApache Spark.SÜRÜ ZEKASI YÖNTEMLERİ İLE APACHE SPARK DESTEKLİ VERİ KÜMELEMEDATA CLUSTERING WITH SWARM INTELLIGENCE METHODS SUPPORTED APACHE SPARKMaster Thesis670804