SES SİNYALLERİNİN GRAF TABANLI TEMSİLLERİNİN YAPAY ZEKÂ YÖNTEMLERİ İLE SINIFLANDIRILMASI

AKSU, SERKAN

DSpace Home
→
LİSANSÜSTÜ EĞİTİM ENSTİTÜSÜ
→
Lisansüstü Eğitim Enstitüsü Doktora Tezleri
→
View Item

dc.contributor.author	AKSU, SERKAN
dc.date.accessioned	2022-04-12T08:44:24Z
dc.date.available	2022-04-12T08:44:24Z
dc.date.issued	2022-03
dc.identifier.uri	http://acikerisim.karabuk.edu.tr:8080/xmlui/handle/123456789/1828
dc.description.abstract	ÖZET Bu çalışmada, ses sinyallerinin zaman boyutundaki komşu genlik seviyeleri arasında bulunan ilişkiye dayalı graf temelli yeni bir temsil yöntemi geliştirilmiştir. Karmaşık ağ biliminin sinyal işleme alanına uyarlandığı bu yaklaşımda zaman boyutundaki genlik seviyeleri ve bunların komşuları arasında bağlantı dikkate alınır. İlk olarak ses sinyalleri, önceden belirlenmiş n-bit seviyesine göre ölçeklenir. Ölçeklenmiş sinyallere 3 farklı değerde uygulanan alt-örnekleme ile 3 farklı bağlantı matrisi (graf) elde edilir. Daha sonra üst üste yerleştirilen bu 3 matrisin sırasıyla RGB katmanlarını temsil ettikleri bir imaj oluşturulmuş olur. Ses sinyallerinin segmentasyonundan elde edilen sinyal parçalarına ayrı ayrı uygulanan bu yöntem sonucunda her bir zaman çerçevesi için 〖[2〗^n×2^n×3] boyutunda RGB-imajı elde edilmiş olur. Bu RGB kare matrisler daha sonra dikey formatta düzleştirilerek 〖[2〗^2n×3] büyüklüğünde tek boyutlu RGB dizisine dönüştürülür. Art arda gelen çerçevelerden elde edilen bu dikey diziler yatay eksende birleştirilir ve connectogram adını verdiğimiz 〖[2〗^2n × segment sayısı ×3] boyutunda bir temsil imajı elde edilmiş olur. Böylece ses sinyalleri zaman-graf eksenli connectogram adını verdiğimiz farklı bir yöntemle temsil edilmiş olur. Sesin connectogram şeklinde temsil edilmesi ile elde edilen bu yeni yöntemin çevresel sesler üzerindeki sınıflandırma başarısı, mel-spektrogram (mels) ve MFCC gibi bilinen yöntemler ile karşılaştırılarak test edilmiştir. Bu test işlemi için temsil matrisleri imaja dönüştürülmüş ardından bu imajlar bilinen en yeni transfer öğrenme modellerine girdi olarak verilmiştir. Elde edilen sonuçlar, connectogram’ların tek başına kullanıldığında mel-spektrogram ile rekabet edecek şekilde en iyi sonucu vermediğini göstermiştir. Fakat, bu matrisler sesin mel-spektrogram temsili ile RGB formatının bir katmanı olacak şekilde [mels + mels + connectogram] şeklinde birleştirildiğinde sınıflandırma başarısında 2% gibi önemli bir artış sağlandığı görülmüştür. Yapılan sınıflandırma denemelerinde en iyi sonucun 5-fold çapraz doğrulama ile ResNet50 modeli üzerinde 95.59 % olarak elde edilmiştir. ABSTRACT We introduce a graph-inspired representation for sounds capturing temporal convexity characteristics based on deviations in amplitude levels. Assuming the quantized amplitude levels as nodes with a pre-defined bit depth (n), a network-theoretic approach is conducted to establish connections between these amplitude levels based on their neighborhood in time domain. This procedure is run for 3 downsampling rates, resulting in a 3-layer adjacency matrix representation for a single time frame after segmentation, that is combined to form an RGB-image of size [2^n×2^n×3] for each segment. These matrices are further flattened to 〖[2〗^2n×3] vertical RGB-arrays, derived from each sound frame. Tiling these vertical arrays from consecutive frames horizontally, we generate a time-graph representation of size 〖[2〗^2n×num.segments×3] named connectogram, capturing the temporal convexity characteristics of sound waves. The representation capability of connectograms is tested in comparison with mel-spectrograms (mels) and MFCCs for an environmental sound classification task, as input to state-of-art transfer learning models. Results indicate that connectograms cannot compete with the best-performer mel-spectrogram representations in standalone format, however they significantly improve their classification performance in case they are combined as single layers of hybrid RGB representations. A combination of [mels+mels+connectogram] outperforms either sole representations or their combinations by 2%, with 95.59 % classification accuracy with 5-fold cross validation for ResNet50 classifier model.	en_EN
dc.language.iso	tr	en_EN
dc.subject	Graf, ses sınıflandırma, zaman serileri ile sınıflandırma, karmaşık ağlar, derin öğrenme.	en_EN
dc.subject	Graph representation, sound classification, time-series classification, complex networks, deep learning.	en_EN
dc.title	SES SİNYALLERİNİN GRAF TABANLI TEMSİLLERİNİN YAPAY ZEKÂ YÖNTEMLERİ İLE SINIFLANDIRILMASI	en_EN
dc.title.alternative	CLASSIFICATION OF GRAPH-BASED REPRESENTATIONS OF AUDIO SIGNALS BY ARTIFICIAL INTELLIGENCE METHODS	en_EN
dc.type	Thesis	en_EN