Feature Selection Metric Using AUC Margin for Small Samples and Imbalanced Data Classification Problems

Imbalanced data classification is a critical and challenging problem in both data mining and machine learning. Imbalanced data classification problems present in many application areas like rare medical diagnosis, risk management, fault-detection, etc. The traditional classification algorithms yield poor results in imbalanced classification problems. In this paper, K-Means cluster based undersampling ensemble algorithm is proposed to solve the imbalanced data classification problem. The proposed method combines K-Means cluster based undersampling and boosting method. The experimental results show that the proposed algorithm outperforms the other sampling ensemble algorithms of previous studies.

Download Full-text

K-Means Cluster Based Oversampling Algorithm for Imbalanced Data Classification

International Journal of Recent Technology and Engineering - 2 ◽

10.35940/ijrte.e6535.018520 ◽

2020 ◽

Vol 8 (5) ◽

pp. 3436-3440

Keyword(s):

Machine Learning ◽

Data Distribution ◽

Imbalanced Data ◽

Data Classification ◽

Classification Problem ◽

Disease Diagnosis ◽

Skewed Data ◽

Challenging Problem ◽

Classification Problems ◽

Imbalanced Data Classification

Imbalanced data classification problems endeavor to find a dependent variable in a skewed data distribution. Imbalanced data classification problems present in many application areas like, medical disease diagnosis, risk management, fault-detection, etc. It is a challenging problem in the field of machine learning and data mining. In this paper, K-Means cluster based oversampling algorithm is proposed to solve the imbalanced data classification problem. The experimental results show that the proposed algorithm outperforms the existing oversampling algorithms of previous studies.

Download Full-text

An embedded feature selection method for imbalanced data classification

IEEE/CAA Journal of Automatica Sinica ◽

10.1109/jas.2019.1911447 ◽

2019 ◽

Vol 6 (3) ◽

pp. 703-715 ◽

Cited By ~ 30

Author(s):

Haoyue Liu ◽

MengChu Zhou ◽

Qing Liu

Keyword(s):

Feature Selection ◽

Feature Selection Method ◽

Imbalanced Data ◽

Data Classification ◽

Selection Method ◽

Imbalanced Data Classification

Download Full-text

A novel imbalanced data classification approach for suicidal ideation detection on social media

Computing ◽

10.1007/s00607-021-00984-0 ◽

2021 ◽

Author(s):

Mohamed Ali Ben Hassine ◽

Safa Abdellatif ◽

Sadok Ben Yahia

Keyword(s):

Social Media ◽

Suicidal Ideation ◽

Imbalanced Data ◽

Data Classification ◽

Classification Approach ◽

Imbalanced Data Classification

Download Full-text

Radial-Based Undersampling for imbalanced data classification

Pattern Recognition ◽

10.1016/j.patcog.2020.107262 ◽

2020 ◽

Vol 102 ◽

pp. 107262 ◽

Cited By ~ 7

Author(s):

Michał Koziarski

Keyword(s):

Imbalanced Data ◽

Data Classification ◽

Imbalanced Data Classification

Download Full-text