Penggunaan Random Under Sampling untuk Penanganan Ketidakseimbangan Kelas pada Prediksi Cacat Software Berbasis Neural Network

Erna Irawan, Romi Satria Wahono

Abstract


Abstract : Penurunan kualitas software dan biaya perbaikan yang tinggi dapat diakibatkan kesalahan atau cacat pada software. Prediksi cacat software sangat penting di dalam software engineering, terutama dalam mengatasi masalah efektifitas dan efisiensi sehingga dapat meningkatkan kualitas software. Neural Network (NN) merupakan algoritma klasifikasi yang telah terbukti mampu mengatasi masalah data nonlinear dan memiliki sensitifitas yang tinggi terhadap suatu data serta mampu menganalisa data yang besar. Dataset NASA MDP merupakan data metric yang nonlinear  perangkat lunak yang biasa digunakan untuk penelitian software defect prediction  (prediksi cacat software). Terdapat 62 penelitian dari 208 penelitian menggunakan dataset NASA. NASA MDP memiliki kelemahan yaitu kelas yang tidak seimbang sehingga dapat menurunkan kinerja dari model prediksi cacat software. Untuk menangani ketidakseimbangan kelas dalam dataset NASA MDP adalah dengan menggunakan metode level data yaitu Random Under Sampling (RUS). RUS ditujukan untuk memperbaiki ketidakseimbangan kelas. Metode yang diusulkan untuk menangani ketidakseimbangan kelas pada Neural Network (NN) adalah penerapan RUS. Eksperimen yang diusulkan untuk membandingkan hasil kinerja Neural Network sebelum dan sesudah diterapkan metode RUS, serta dibandingkan dengan model yang lainnya. Hasil Eksperimen rata-rata AUC pada NN (0.80)  dan NN+RUS (0.82). Hasil uji Wilcoxon dan Friedman menunjukan bahwa bahwa AUC NN+RUS memiliki perbedaan yang signifikan dengan NN dengan p-value wilcoxon = 0.002 dan  p-value friedman = 0.003 (p<0.05). Menurut uji friedman terdapat perbedaan AUC yang signifikan antara NN+RUS dengan NN, NN+SMOTE, NB, dan C45 karena nilai                  p-value < 0.0001. Maka dapat disimpulkan bahwa penerapan model RUS terbukti dapat menangani masalah ketidakseimbangan kelas pada prediksi cacat software berbasis neural network.

 

Kata Kunci: Ketidakseimbangan Kelas, Neural   Network, Random Under Sampling

 


Full Text:

PDF

References


Arar, Ö. F., & Ayan, K. (2015). Software defect prediction using cost-sensitive neural network. Applied Soft Computing,1–15. http://doi.org/10.1016/j.asoc.2015

Chen, H., Zhang, J., Xu, Y., Chen, B., & Zhang, K. (2012). Performance comparison of artificial Neural Network and logistic regression model for differentiating lung nodules on CT scans. Xpert Systems with Applications, (11503–11509), 39(13).

Chawla, Lazarevic, & Lawrence. (n.d.). No TitleSMOTEBoost: Improving Prediction of the Minority Class in Boosting. Principles and Practice of Knowledge Discovery in Database. Dubrovnik (pp. 107–119).

Demsar, J. (2006). Statistical Comparisons of Classifiers over Multiple Data Sets. The Journal of Machine Learning Research, 1–30.

Gao, K., Khoshgoftaar, T., & Wald, R. (2014). Combining Feature Selection and Ensemble Learning for Software Quality Estimation. The Twenty-Seventh International Flairs Conference, 47–52.

Gorunescu, F. (2011). Data Mining: Concepts, Models, and Techniques. Springer.

Hall, T., Beecham, S., Bowes, D., Gray, D., & Counsell, S. (2012). A systematic literature review on fault prediction performance in software engineering. IEEE Transactions on Software Engineering, 38(03), 1276–1304. http://doi.org/10.1109/TSE.2011.103

Han, J., Kamber, M., & Pei, J. (2012). Data Mining Concepts and TecniquesNo Title. San Fransisco: Morgan Kauffman.

Harrington, P. (2012). Machine Learning in Action. Manning Publications Co.

Hastie, T., Tibshirani, R., & Friedman, J. (2011). The elements of statistical learning : data mining, interence, and prediction. Springer. Springer.

Jones, C., & Bonsignour, O. (2012). The Economics of Software Quality.

Jong, J. S. (2009). Jaringan Syaraf Tiruan & Pemrogramannya Menggunakan MATLAB. Yogyakarta: Andi Yogyakarta.

Journal, I., & Models, I. (2014). A Study Of Application Of Neural Network Technique On Software Repositories Ana Maria Bautista , Tomas San Feliu Research methodology, 3(3).

Khoshgoftaar, T. M., Gao, K. G. K., & Seliya, N. (2010). Attribute Selection and Imbalanced Data: Problems in Software Defect Prediction. Tools with Artificial Intelligence (ICTAI), 2010 22nd IEEE International Conference on, 1. http://doi.org/10.1109/ICTAI.2010.27

Korada, N, K., Kumar, N, P., & Deekshitulu, Y. (2012). Implementatioan Of Naive Bayesian Classifier and Ada-Boost Algoritm Using Maiz Expert System. International Journal Of Information Sciences And Techniques (IJIST) Vol.2, No.3, 63-75, 2(3), 63–75.

Liebchen, G. a, & Shepperd, M. (2008). Data sets and data quality in software engineering. Proceedings of the 4th International Workshop on Predictor Models in Software Engineering - PROMISE, 39.

Park, B. J., Oh, S. K., & Pedrycz, W. (2013). The design of polynomial function-based Neural Network predictors for detection of software defects. Information Sciences, 229, 40–57. http://doi.org/10.1016/j.ins.2011.01.026

Park, B., Oh, S., & Pedrycz, W. (2013). The design of polynomial function-based Neural Network predictors for detection of software defects. Information Sciences, 229, 40–57. http://doi.org/10.1016/j.ins.2011.01.026

Pressman, R. S. (2010). Software Engineering A Practitioner’s Approach Sevent Edition (p. (p. 895)). New York, NY: McGraw-Hill Companies, Inc.

Rianto, H., Pascasarjana, P., Ilmu, M., Tinggi, S., Informatika, M., Komputer, D. A. N., & Mandiri, N. (2015). Resampling Logistic Regression Untuk Penanganan Ketidakseimbangan Data Skala Besar Pada Prediksi Cacat Software.

Saifudin, A., & Wahono, R. S. (2015). Penerapan Teknik Ensemble untuk Menangani Ketidakseimbangan Kelas pada Prediksi Cacat Software, 1(1).

Setiyorini, T., Pascasarjana, P., Ilmu, M., Tinggi, S., Informatika, M., Komputer, D. a N., & Mandiri, N. (2014a). Penerapan Metode Bagging Untuk Mengurangi Data Noise Pada Neural Network Untuk Estimasi Kuat Tekan Beton Penerapan Metode Bagging Untuk Mengurangi Data Noise Pada Neural Network Untuk, 1(1), 36–41.

Shepperd, M., Song, Q., Sun, Z., & Mair, C. (2013). Data quality: Some comments on the NASA software defect datasets. IEEE Transactions on Software Engineering, 39, 1208–1215. http://doi.org/10.1109/TSE.2013.11

Wahono, R. S. (2015). A Systematic Literature Review of Software Defect Prediction : Research Trends , Datasets , Methods and Frameworks, 1(1).

Wahono, R. S., & Herman, N. S. (2014). Genetic feature selection for software defect prediction. Advanced Science Letters, 20(1), 239–244. http://doi.org/10.1166/asl.2014.5283

Wahono, R. S., Herman, N. S., & Ahmad, S. (2014). Neural Network Parameter Optimization Based on Genetic Algorithm for Software Defect Prediction. Advanced Science Letters, 20(10), 1951–1955. http://doi.org/10.1166/asl.2014.5641

Wahono, R. S., & Suryana, N. (2013). Combining particle swarm optimization based feature selection and bagging technique for software defect prediction. International Journal of Software Engineering and Its Applications, 7(5), 153–166. http://doi.org/10.14257/ijseia.2013.7.5.16

Wahono, R. S., Suryana, N., & Ahmad, S. (2014). Metaheuristic Optimization based Feature Selection for Software Defect Prediction. Journal of Software, 9(5), 1324–1333. http://doi.org/10.4304/jsw.9.5.1324-1333

Wang, B. X., & Japkowicz, N. (2010). Boosting support vector machines for imbalanced data sets. Knowledge and Information Systems, 25, 1–20. http://doi.org/10.1007/s10115-009-0198-y

Witten, I. H., Frank, E., & Hal, M. A. (2011). Data Mining Practical Mechine Learning Tools and Techniques Third Edition (3rd ed.). Elsevier Inc.

Wu, X., & Kumar, V. (2010). No Title. Taylor & Francis Grop, 5, 158.

Yap, B. W., Ran, K., Rahman, H. A. A., Fong, S., Khairudin, Z., & Abdullah, N. N. (2014). No Title. Electrical Engineering, 285, 12–13.

Yu, D., Hu, J., Tang, Z., Shen, H., Yang, J., & Yang, J. (2013). Neurocomputing Improving protein-ATP binding residues prediction by boosting SVMs with random under-sampling. Neurocomputing, 104, 180–190. http://doi.org/10.1016/j.neucom.2012.10.012

Zamani, A. M., & Amaliah, B. (2012). Implementasi Algoritma Genetika pada Struktur Backpropagation Neural Network untuk Klasifikasi Kanker Payudara, 1.

Zhang, Z.-Z., Chen, Q., Ke, S.-F., Wu, Y.-J., Qi, F., & Zhang, Y.-P.

(2008). Ranking Potential Customers Based on Group-Ensemble. International Journal of Data Warehousing and Mining, 4(2), 79–89. http://doi.org/10.4018/jdwm.2008040109

Zheng, J. (2010). Cost-sensitive boosting neural networks for software defect prediction. Expert Systems with Applications, 37(6), 4537–4543. http://doi.org/10.1016/j.eswa.2009.12.056






Journal of Software Engineering (JSE, ISSN 2356-3974)
Copyright © 2015 IlmuKomputer.Com. All rights reserved.