Integrasi Bagging dan Greedy Forward Selection pada Prediksi Cacat Software dengan Menggunakan Naive Bayes

- Fitriyani, Romi Satria Wahono

Abstract


Kualitas software ditemukan pada saat pemeriksaan dan pengujian. Apabila dalam pemeriksan atau pengujian tersebut terdapat cacat software maka hal tersebut akan membutuhkan waktu dan biaya dalam perbaikannya karena biaya untuk estimasi dalam memperbaiki software yang cacat dibutuhkan biaya yang mencapai 60 Miliar pertahun. Naïve bayes merupakan algoritma klasifikasi yang sederhana, mempunya kinerja yang bagus dan mudah dalam penerapannya, sudah banyak penelitian yang menggunakan algoritma naïve bayes untuk prediksi cacat software yaitu menentukan software mana yang masuk kategori cacat dan tidak cacat pada. Dataset NASA MDP merupakan dataset publik dan sudah banyak digunakan dalam penelitian karena sebanyak 64.79% menggunakan dataset tersebut dalam penelitian prediksi cacat software. Dataset NASA MDP memiliki kelemahan adalah kelas yang tidak seimbang dikarenakan kelas mayoritas berisi tidak cacat dan minoritas berisi cacat dan kelemahan lainnya adalah data tersebut memiliki dimensi yang tinggi atau fitur-fitur yang tidak relevan sehingga dapat menurunkan kinerja dari model prediksi cacat software. Untuk menangani ketidakseimbangan kelas dalam dataset NASA MDP adalah dengan menggunakan metode ensemble (bagging), bagging merupakan salah satu metode ensemble untuk memperbaiki ketidakseimbangan kelas. Sedangkan untuk menangani data yang berdimensi tinggi atau fitur-fitur yang tidak memiliki kontribusi dengan menggunakan seleksi fitur greedy forward selection. Hasil dalam penelitian ini didapatkan nilai AUC tertinggi adalah menggunakan model naïve bayes tanpa seleksi fitur adalah 0.713, naïve bayes dengan greedy forward selection sebesar 0.941 dan naïve bayes dengan greedy forward selection dan bagging adalah sebesar 0.923. Akan tetapi, dilihat dari rata-rata peringkat bahwa naïve bayes dengan greedy forward selection dan bagging merupakan model yang terbaik dalam prediksi cacat software dengan rata-rata peringkat sebesar 2.550.

Full Text:

PDF

References


Arora, I., Tetarwal, V., & Saha, A. (2015). Open Issues in Software Defect Prediction. Procedia Computer Science, 906-912.

Chang, R., Mu, X., & Zhang, L. (2011). Software Defect Prediction Using Non-Negative Matrix Factorization. Journal of Software, 2114-2120.

Gao, K., Khoshgoftaar, T., & Wald , R. (2014). Combining Feature Selection and Ensemble Learning for Software Quality Estimation. Twenty-Seventh International Florida Artificial Intelligence Research society Conference (pp. 47-52). Association for the Advacement of Artificial Intelligence.

Gorunescu, F. (2011). Data Mining Concepts, Models and Techniques. Berlin: Springer.

Han, J., Kamber, M., & Pei, J. (2012). Data Mining Concepts and Techniques. Waltham: Elsevier.

Khoshgoftaar, T. M., Hulse, J. V., & Napolitano, A. (2011). Comparing Boosting and Bagging Techniques with Noisy and Imbalanced Data. IEEE Transactions on Systems, Man and Cybernetics, 552-568.

Laradji, I. H., Alshayeb, M., & Ghouti, L. (2015). Software Defect Prediction Using Ensemble Learning on Selected Features. Information and Software Technology, 388-402.

Lee, C.-H. (2015). A Gradient Approach for Value Weighted Classification Learning in Naive Bayes. Knowledge-Based Systems, 1-9.

Lessmann, S., Baesens, B., Mues, C., & Pietsch, S. (2008). Benchmarking Classification Models for Software Defect Prediction: A Proposed Framework and Novel Findings. IEEE Transactions on Software Engineering, 485-496.

Liu, X.-Y., & Zhou, Z.-H. (2013). Ensemble Methods for Class Imbalance Learning. Imbalanced Learning: Foundations, Algorithms, and Applications, First Edition, 61-82.

Ma, Y., Luo, G., Zeng, X., & Chen, A. (2012). Transfer Learning for Cross-Company Software Defect Prediction. Information and Software Technology, 248-256.

Song, Q., Jia, Z., Shepperd, M., Ying, S., & Liu, J. (2010). A General Software Defect-Proneness Prediction Framework. IEEE Transaction on Software Engineering, 1-16.

Strate, J. D., & Laplante, P. A. (2013). A Literature Review of Research in Software Defect Reporting. IEEE Transactions on Reliability, 444-454.

Wahono, R. S. (2015). A Systematic Literature Review of Software Defect Prediction: Research Trends, Datasets, Methods and Frameworks. Journal of Software Engineering, 1-16.

Wahono, R. S., & Suryana, N. (2013). Combining Particle Swarm Optimization based Feature Selection and Bagging Technique for Software Defect. IJSEIA, 153-166.

Wahono, R. S., Suryana, N., & Ahmad, S. (2014). Metaheuristic Optimization based Feature Selection for Software Defect Prediction. Journal of Software, 1324-1333.

Witten, I. H., Frank, E., & Hall, M. A. (2011). Data Mining Practical Machine Learning Tools and techniques. Burlington: Elsevier.






Journal of Software Engineering (JSE, ISSN 2356-3974)
Copyright © 2015 IlmuKomputer.Com. All rights reserved.