Perbaikan Akurasi Naive Bayes dengan Chi-Square dan Smote dalam Mengatasi High Dimensional dan Imbalanced Data Banjir Kota Samarinda
Abstract
Banjir merupakan salah satu bencana alam yang sering terjadi di Indonesia, Kota Samarinda setiap tahunnya dilanda banjir yang memakan banyak kerugian. Data yang digunakan berasal dari Badan Penanggulangan Bencana Daerah (BPBD) dan Badan Meteorologi, Klimatologi, dan Geofisika (BMKG) pada tahun 2021-2023 Kota Samarinda, yang terdapat 11 atribut dan 1095 record. Penelitian data mining terkait banjir sudah pernah dilakukan oleh penelitian sebelumnya. Namun, terjadi masalah pada data yang berdimensi tinggi dan ketidakseimbangan data. High Dimensional mengakibat overfitting penurunan akurasi sedangkan yang Imbalanced Data memiliki dampak overfitting terhadap kelas mayoritas dan representasi yang tidak akurat. Penelitian ini bertujuan untuk meningkatkan akurasi algoritma Naive Bayes dalam memprediksi High Dimensional dan Imbalanced Data banjir. Pendekatan yang digunakan melibatkan teknik seleksi fitur Chi-Square dan oversampling dengan Synthetic Minority Over-sampling Technique (SMOTE). Chi-Square untuk mencari fitur yang optimal dalam memprediksi banjir dan meningkatkan akurasi algoritma Naive Bayes dalam memprediksi High Dimensional dan Imbalanced Data banjir. Metode validasi silang dengan 10-fold cross-validation, dan menggunakan model confusion matrix untuk menghitung nilai akurasi. Hasil penelitian menunjukkan bahwa Chi-Square dapat mengidentifikasikan empat fitur terbaik yaitu, kelembapan (rh_avg), curah hujan (rr), arah angin maksimum (ddd_x), arah angin terbanyak (ddd_car). Penggunaan algoritma Naive Bayes dengan teknik SMOTE berhasil mencapai akurasi sebesar 71.58%. Namun, setelah menerapkan seleksi fitur Chi-Square, terjadi penurunan akurasi menjadi 60.82%. Penurunan ini disebabkan oleh kurangnya jumlah kelas minoritas setelah seleksi fitur. Dengan demikian, seleksi fitur Chi-Square tidak cukup efektif dalam meningkatkan akurasi Naive Bayes pada High Dimensional.

