SES SİNYALLERİNİN GRAF TABANLI TEMSİLLERİNİN YAPAY ZEKÂ YÖNTEMLERİ İLE SINIFLANDIRILMASI

dc.contributor.authorAksu, Serkan
dc.date.accessioned2022-04-12T08:44:24Z
dc.date.available2022-04-12T08:44:24Z
dc.date.issued2022-03
dc.departmentLisansüstü Eğitim Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalıen_US
dc.description.abstractBu çalışmada, ses sinyallerinin zaman boyutundaki komşu genlik seviyeleri arasında bulunan ilişkiye dayalı graf temelli yeni bir temsil yöntemi geliştirilmiştir. Karmaşık ağ biliminin sinyal işleme alanına uyarlandığı bu yaklaşımda zaman boyutundaki genlik seviyeleri ve bunların komşuları arasında bağlantı dikkate alınır. İlk olarak ses sinyalleri, önceden belirlenmiş n-bit seviyesine göre ölçeklenir. Ölçeklenmiş sinyallere 3 farklı değerde uygulanan alt-örnekleme ile 3 farklı bağlantı matrisi (graf) elde edilir. Daha sonra üst üste yerleştirilen bu 3 matrisin sırasıyla RGB katmanlarını temsil ettikleri bir imaj oluşturulmuş olur. Ses sinyallerinin segmentasyonundan elde edilen sinyal parçalarına ayrı ayrı uygulanan bu yöntem sonucunda her bir zaman çerçevesi için ?[2?^n×2^n×3] boyutunda RGB-imajı elde edilmiş olur. Bu RGB kare matrisler daha sonra dikey formatta düzleştirilerek ?[2?^2n×3] büyüklüğünde tek boyutlu RGB dizisine dönüştürülür. Art arda gelen çerçevelerden elde edilen bu dikey diziler yatay eksende birleştirilir ve connectogram adını verdiğimiz ?[2?^2n × segment sayısı ×3] boyutunda bir temsil imajı elde edilmiş olur. Böylece ses sinyalleri zaman-graf eksenli connectogram adını verdiğimiz farklı bir yöntemle temsil edilmiş olur. Sesin connectogram şeklinde temsil edilmesi ile elde edilen bu yeni yöntemin çevresel sesler üzerindeki sınıflandırma başarısı, mel-spektrogram (mels) ve MFCC gibi bilinen yöntemler ile karşılaştırılarak test edilmiştir. Bu test işlemi için temsil matrisleri imaja dönüştürülmüş ardından bu imajlar bilinen en yeni transfer öğrenme modellerine girdi olarak verilmiştir. Elde edilen sonuçlar, connectogram’ların tek başına kullanıldığında mel-spektrogram ile rekabet edecek şekilde en iyi sonucu vermediğini göstermiştir. Fakat, bu matrisler sesin mel-spektrogram temsili ile RGB formatının bir katmanı olacak şekilde [mels + mels + connectogram] şeklinde birleştirildiğinde sınıflandırma başarısında 2% gibi önemli bir artış sağlandığı görülmüştür. Yapılan sınıflandırma denemelerinde en iyi sonucun 5-fold çapraz doğrulama ile ResNet50 modeli üzerinde 95.59 % olarak elde edilmiştir.en_US
dc.description.abstractWe introduce a graph-inspired representation for sounds capturing temporal convexity characteristics based on deviations in amplitude levels. Assuming the quantized amplitude levels as nodes with a pre-defined bit depth (n), a network-theoretic approach is conducted to establish connections between these amplitude levels based on their neighborhood in time domain. This procedure is run for 3 downsampling rates, resulting in a 3-layer adjacency matrix representation for a single time frame after segmentation, that is combined to form an RGB-image of size [2^n×2^n×3] for each segment. These matrices are further flattened to ?[2?^2n×3] vertical RGB-arrays, derived from each sound frame. Tiling these vertical arrays from consecutive frames horizontally, we generate a time-graph representation of size ?[2?^2n×num.segments×3] named connectogram, capturing the temporal convexity characteristics of sound waves. The representation capability of connectograms is tested in comparison with mel-spectrograms (mels) and MFCCs for an environmental sound classification task, as input to state-of-art transfer learning models. Results indicate that connectograms cannot compete with the best-performer mel-spectrogram representations in standalone format, however they significantly improve their classification performance in case they are combined as single layers of hybrid RGB representations. A combination of [mels+mels+connectogram] outperforms either sole representations or their combinations by 2%, with 95.59 % classification accuracy with 5-fold cross validation for ResNet50 classifier model."en_US]
dc.identifier.urihttps://hdl.handle.net/20.500.14619/1828
dc.identifier.urihttps://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=CG8WvdvvxJP04Unr7Yecfw0DKK-rEF_Gpvhl5htZzjufYRT0BmRYn8SS3HodxH9Y
dc.identifier.yoktezid726753en_US
dc.language.isotren_US
dc.relation.publicationcategoryTezen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectGrafen_US
dc.subjectses sınıflandırmaen_US
dc.subjectzaman serileri ile sınıflandırmaen_US
dc.subjectkarmaşık ağlaren_US
dc.subjectderin öğrenme.en_US
dc.subjectGraph representationen_US
dc.subjectsound classificationen_US
dc.subjecttime-series classificationen_US
dc.subjectcomplex networksen_US
dc.subjectdeep learning.en_US
dc.titleSES SİNYALLERİNİN GRAF TABANLI TEMSİLLERİNİN YAPAY ZEKÂ YÖNTEMLERİ İLE SINIFLANDIRILMASIen_US
dc.title.alternativeCLASSIFICATION OF GRAPH-BASED REPRESENTATIONS OF AUDIO SIGNALS BY ARTIFICIAL INTELLIGENCE METHODSen_US
dc.typeDoctoral Thesisen_US

Dosyalar

Orijinal paket
Listeleniyor 1 - 1 / 1
Yükleniyor...
Küçük Resim
İsim:
10457548.pdf
Boyut:
3.17 MB
Biçim:
Adobe Portable Document Format
Açıklama:
Lisans paketi
Listeleniyor 1 - 1 / 1
Küçük Resim Yok
İsim:
license.txt
Boyut:
1.71 KB
Biçim:
Item-specific license agreed upon to submission
Açıklama: