Penerapan Adaboost untuk Penyelesaian Ketidakseimbangan Kelas pada Penentuan Kelulusan Mahasiswa dengan Metode Decision Tree

Achmad Bisri, Romi Satria Wahono

Abstract


Universitas Pamulang salah satu perguruan tinggi yang memiliki jumlah mahasiswa yang besar, namun dalam data histori terdapat masalah dengan jumlah kelulusan yang tepat waktu dan terlambat (tidak tepat waktu ) yang tidak seimbang. Metode decision tree memiliki kinerja yang baik dalam menangani klasifikasi tepat waktu atau terlambat tetapi decision tree memiliki kelemahan dalam derajat yang tinggi dari ketidakseimbangan kelas (class imbalance). Untuk mengatasi masalah tersebut dapat dilakukan dengan sebuah metode yang dapat menyeimbangkan kelas dan meningkatkan akurasi. Adaboost salah satu metode boosting yang mampu menyeimbangkan kelas dengan memberikan bobot pada tingkat error klasifikasi yang dapat merubah distribusi data. Eksperimen dilakukan dengan menerapkan metode adaboost pada decision tree (DT) untuk mendapatkan hasil yang optimal dan tingkat akurasi yang baik. Hasil ekperimen yang diperoleh dari metode decision tree untuk akurasi sebesar 87,18%, AUC sebesar 0,864, dan RMSE sebesar 0,320, sedangkan hasil dari decision tree dengan adaboost (DTBoost) untuk akurasi sebesar 90,45%, AUC sebesar 0,951, dan RMSE sebesar 0,273, maka dapat disimpulkan dalam penentuan kelulusan mahasiswa dengan metode decision tree dan adaboost terbukti mampu menyelesaikan masalah ketidakseimbangan kelas dan meningkatkan akurasi yang tinggi dan dapat menurunkan tingkat error klasifikasi.

Full Text:

PDF

References


Barreto, H., & Howland, F. M. (2006). Introductory Econometrics: Using Monte Carlo Simulation with Microsoft ExceIntroductory Econometrics: Using Monte Carlo Simulation with Microsoft Excel. New York: Cambridge University Press.

Capparuccia, R., Leone, R. D., & Marchitto, E. (2007). Integrating support vector machines and neural networks. Neural Networks, 590-597.

Chawla, N. V., Cieslak, D. A., Hall, L. O., & Joshi, A. (2008). Automatically countering imbalance and its empirical relationship to cost. Data Mining and Knowledge Discovery, 225-252.

Cieslak, D. A., Hoens, T. R., Chawla, N. V., & Kegelmeyer, W. P. (2012). Hellinger distance decision trees are robust and skew-insensitive. Data Mining and Knowledge Discovery, 136-158.

Congalton, R. G., & Green, K. (2009). Assessing the Accuracy of Remotely Sensed Data: Principles and Practices, Second Edition (Mapping Science). Boca Raton: CRC Press.

Drummond, C., & Holte, R. C. (2003). C4.5, Class Imbalance, and Cost Sensitivity: Why Under-Sampling beats Over-Sampling. Institute for Information Technology, National Research Council (pp. 1-8). Canada, Ottawa, Ontario: Department of Computing Science, University of Alberta.

Gorunescu, F. (2011). Data Mining Concepts, Models and Techniques. Verlag Berlin Heidelberg: Springer.

Hulse, J. V., & Khoshgoftaar, T. (2009). Knowledge discovery from imbalanced and noisy data. Elsevier, 1513-1542.

Karamouzis, S. T., & Vrettos, A. (2008). An Artificial Neural Network for Predicting Student Graduation Outcomes. WCECS (World Congress on Engineering and Computer Science), 991-994.

Kotsiantis, S. B., & Pintelas, P. E. (2009). Selective costing ensemble for handling imbalanced data sets. International Journal of Hybrid Intelligent Systems, 123-133.

Kotsiantis, S., Kanellopoulos, D., & Pintelas, P. (2006). Handling imbalanced datasets: A review. GESTS International Transactions on Computer Science and Engineering, 25-36.

Larose, D. T. (2007). Data Mining Methods and Models. Hoboken, New Jersey: A John Wley & Sons, Inc Publication.

Minaei-Bidgoli, B., Kashy, D. A., Kortemeyer, G., & Punch, W. F. (2013). Predicting Student Performance: An Application Of Data Mining Methods With The Educational Web-Based System Lon-Capa. IEEE (Institute of Electrical and Electronics Engineers).

Quinlan, J. R. (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann.

Quinlan, J. R. (1996). Bagging, Boosting, and C4.5. AAAI'96 Proceedings of the thirteenth national conference on Artificial intelligence - Volume 1 (pp. 725-730). Australia: ACM Digital Library.

Sun, Y., Kamel, M. S., Wong, A. K., & Wang, Y. (2007). Cost-sensitive boosting for classification of imbalanced data. Pattern Recognition Society, 3358–3378.

Undavia, J. N., Dolia, P. M., & Shah, N. P. (2013). Prediction of Graduate Students for Master Degree based on Their Past Performance using

Decision Tree in Weka Environment. International Journal of Computer Applications.

Weiss, G. M., McCarthy, K., & Zabar, B. (2007). Cost-Sensitive Learning vs. Sampling: Which is Best for Handling Unbalanced Classes with Unequal Error Costs? DMIN, 35-41.

Zhang, H., & Wang, Z. (2011). A Normal Distribution-Based Over-Sampling Approach to Imbalanced Data Classification. Advanced Data Mining and Applications - 7th International Conference (pp. 83-96). Beijing, China: Springer.


Refbacks

  • There are currently no refbacks.




Journal of Intelligent Systems(JIS, ISSN 2356-3982)
Copyright © 2020IlmuKomputer.Com. All rights reserved.