Model Optimasi Random Forest dengan PSO-CHI-SM dalam Mengatasi High Dimensional dan Imbalanced Data Banjir Kota Samarinda
Abstract
Banjir merupakan bencana alam yang seringkali melanda tanah air. Kota Samarinda sendiri merupakan Kota yang saat ini masih sering mengalami kejadian banjir dengan 18 kejadian pada tahun 2018, 33 kejadian tahun 2020 dan 32 kejadian pada tahun 2021. Untuk dapat memprediksi bencana banjir maka dibutuhkan pemanfaatan teknologi yang dikenal dengan machine learning dalam menganalisis dan mengklasifikasikan bencana banjir. Namun, dalam klasifikasi seringkali ditemukan masalah data berdimensi tinggi dan ketidakseimbangan kelas. Penelitian ini bertujuan untuk mengetahui seberapa meningkat akurasi klasifikasi terhadap bencana banjir jika menggunakan algoritma Random Forest dengan PSO sebagai optimasi, seleksi fitur Chi-Square dan oversampling SMOTE untuk menyeimbangkan kelas. Data yang digunakan dalam penelitian ini merupakan data banjir periode 2021-2023 yang didapatkan dari BMKG dan BPBD Kota Samarinda dengan 1095 total record dan 11 atribut. Teknik validasi yang digunakan adalah 5-fold cross-validation dan menggunakan confusion matrix sebagai evaluasi. Hasil penerapan seleksi fitur Chi-Square mengidentifikasi Curah-hujan, Arah-angin-maksimum, Arah-angin-terbanyak, Kelembaban, Lama-penyinaran-matahari, dan Kecepatan-angin sebagai fitur paling berpengaruh dari perangkingan berdasarkan skor Chi-Square dan P-value. Akurasi rata-rata yang didapatkan dari model klasifikasi yang diusulkan dengan teknik validasi 5-fold cross-validation mencapai 96.02%.

