K-MEANS SEBAGAI EKSTRAKTOR CIRI PADA KLASIFIKASI DATA DENGAN ALGORITMA SUPPORT VECTOR MACHINE (SVM)

Nurul Chamidah

doi:10.24176/simet.v9i2.2433

K-MEANS SEBAGAI EKSTRAKTOR CIRI PADA KLASIFIKASI DATA DENGAN ALGORITMA SUPPORT VECTOR MACHINE (SVM)

Simetris Jurnal Teknik Mesin Elektro dan Ilmu Komputer ◽

10.24176/simet.v9i2.2433 ◽

2018 ◽

Vol 9 (2) ◽

pp. 889-896

Author(s):

Nurul Chamidah

Keyword(s):

Breast Cancer ◽

Machine Learning ◽

Support Vector Machine ◽

Heart Disease ◽

Membership Function ◽

Cross Validation ◽

Fuzzy Membership ◽

Fuzzy Membership Function ◽

Support Vector ◽

Fold Cross Validation

Besarnya dimensi pada ciri merupakan masalah pada komputasi untuk mengklasifikasi data sehingga diperlukan suatu proses ekstraksi ciri agar dimensinya berkurang dengan cara mengambil hanya informasi yang penting dari ciri. Penelitian ini menggunakan algoritma K-Means untuk mengekstraksi ciri dengan menemukan pola tersembunyi dari setiap kelas kemudian direkonstruksi dengan fuzzy membership function dan mendapatkan pola baru. Pola baru yang terbentuk digunakan sebagai ciri abstrak dan dibagi kedalam data latih dan data uji. Pelatihan dilakukan dengan memanfaatkan algoritma Support Vector Machine (SVM) untuk mendapatkan model klasifikasi. Model klasifikasi SVM yang diperoleh kemudian di uji dengan menggunakan data uji untuk memperoleh performa klasifikasi berupa akurasi dan waktu komputasi. Dengan 5-fold cross validation, metode ini memberikan akurasi yang baik pada dataset Liver, Breast Cancer dan Heart Disease yang diperoleh dari UCI Machine Learning Repository. Penelitian ini menunjukkan kemampuan K-Means untuk mengekstraksi ciri dari dataset. Hasil penelitian ini menujukkan bahwa K-Means sebagai ekstraktor ciri dapat mengurangi waktu komputasi.

Download Full-text

Analisis Sentimen Pada Maskapai Penerbangan di Platform Twitter Menggunakan Algoritma Support Vector Machine (SVM)

Teknika ◽

10.34148/teknika.v10i1.311 ◽

2021 ◽

Vol 10 (1) ◽

pp. 18-26

Author(s):

Hendry Cipta Husada ◽

Adi Suryaputra Paramita

Keyword(s):

Machine Learning ◽

Social Media ◽

Support Vector Machine ◽

Cross Validation ◽

Support Vector ◽

Learning Approach ◽

Social Media Platform ◽

Machine Learning Approach ◽

Media Platform ◽

Fold Cross Validation

Perkembangan teknologi saat ini telah memberikan kemudahan bagi banyak orang dalam mendapatkan dan menyebarkan informasi di berbagai social media platform. Twitter merupakan salah satu media yang kerap digunakan untuk menyampaikan opini sebagai bentuk reaksi seseorang atas suatu hal. Opini yang terdapat di Twitter dapat digunakan perusahaan maskapai penerbangan sebagai parameter kunci untuk mengetahui tingkat kepuasan publik sekaligus bahan evaluasi bagi perusahaan. Berdasarkan hal tersebut, diperlukan sebuah metode yang dapat secara otomatis melakukan klasifikasi opini ke dalam kategori positif, negatif, atau netral melalui proses analisis sentimen. Proses analisis sentimen dilakukan dengan proses data preprocessing, pembobotan kata menggunakan metode TF-IDF, penerapan algoritma, dan pembahasan atas hasil klasifikasi. Klasifikasi opini dilakukan dengan machine learning approach memanfaatkan algoritma multi-class Support Vector Machine (SVM). Data yang digunakan dalam penelitian ini adalah opini dalam bahasa Inggris dari para pengguna Twitter terhadap maskapai penerbangan. Berdasarkan pengujian yang telah dilakukan, hasil klasifikasi terbaik diperoleh menggunakan SVM kernel RBF pada nilai parameter 𝐶(complexity) = 10 dan 𝛾(gamma) = 1, dengan nilai accuracy sebesar 84,37% dan 80,41% ketika menggunakan 10-fold cross validation.

Download Full-text

Perbandingan Akurasi dan Waktu Proses Algoritma K-NN dan SVM dalam Analisis Sentimen Twitter

Jurnal Informatika ◽

10.31311/ji.v6i2.5129 ◽

2019 ◽

Vol 6 (2) ◽

pp. 226-235

Author(s):

Muhammad Rangga Aziz Nasution ◽

Mardhiya Hayaty

Keyword(s):

Machine Learning ◽

Support Vector Machine ◽

Unsupervised Learning ◽

Supervised Learning ◽

Cross Validation ◽

Nearest Neighbor ◽

Support Vector ◽

K Nearest Neighbor ◽

Fold Cross Validation

Salah satu cabang ilmu komputer yaitu pembelajaran mesin (machine learning) menjadi tren dalam beberapa waktu terakhir. Pembelajaran mesin bekerja dengan memanfaatkan data dan algoritma untuk membuat model dengan pola dari kumpulan data tersebut. Selain itu, pembelajaran mesin juga mempelajari bagaimama model yang telah dibuat dapat memprediksi keluaran (output) berdasarkan pola yang ada. Terdapat dua jenis metode pembelajaran mesin yang dapat digunakan untuk analisis sentimen: supervised learning dan unsupervised learning. Penelitian ini akan membandingkan dua algoritma klasifikasi yang termasuk dari supervised learning: algoritma K-Nearest Neighbor dan Support Vector Machine, dengan cara membuat model dari masing-masing algoritma dengan objek teks sentimen. Perbandingan dilakukan untuk mengetahui algoritma mana lebih baik dalam segi akurasi dan waktu proses. Hasil pada perhitungan akurasi menunjukkan bahwa metode Support Vector Machine lebih unggul dengan nilai 89,70% tanpa K-Fold Cross Validation dan 88,76% dengan K-Fold Cross Validation. Sedangkan pada perhitungan waktu proses metode K-Nearest Neighbor lebih unggul dengan waktu proses 0.0160s tanpa K-Fold Cross Validation dan 0.1505s dengan K-Fold Cross Validation.

Download Full-text

Prediksi Waktu Kedatangan Pelanggan Servis Kendaraan Bermotor Berdasarkan Data Historis menggunakan Support Vector Machine

Jurnal Edukasi dan Penelitian Informatika (JEPIN) ◽

10.26418/jp.v7i1.42964 ◽

2021 ◽

Vol 7 (1) ◽

pp. 25

Author(s):

Benni Agung Nugroho ◽

Andika Kurnia Adi Pradana ◽

Ellya Nurfarida

Keyword(s):

Machine Learning ◽

Support Vector Machine ◽

Cross Validation ◽

Support Vector ◽

Fold Cross Validation

Dealer kendaraan perlu menjaga hubungan baik dengan pelanggan sehingga inti bisnis dealer dapat berlanjut dan berkembang. Salah satu strategi yang digunakan adalah memprediksi kapan pelanggan akan berkunjung lagi untuk servis kendaraan (layanan perawatan atau perbaikan kendaraan) berdasarkan analisis data riwayat kunjungan pelanggan. Dengan hasil prediksi berupa hari kedatangan pelanggan dimasa depan maka dealer kendaraan dapat mengingatkan pelanggan tentang kapan waktunya servis kendaraan. Support vector machine (SVM) adalah sebuah model pembelajaran mesin (machine learning) yang menggunakan hyperplane dan support-vector untuk memisahkan kelas dalam suatu ruang dimensi secara optimal sehingga sesuai untuk digunakan dalam pemecahan masalah prediksi waktu kedatangan pelanggan. SVM diimplementasikan untuk memprediksi kapan pelanggan akan datang lagi dimasa depan untuk perbaikan atau perawatan kendaraan. Hasil menunjukkan bahwa, dengan pemilihan metode yang tepat, SVM dapat memprediksi waktu kedatangan pelanggan dengan tingkat akurasi mencapai 92.5% berdasarkan validasi K-Fold cross-validation pada data latih dan mencapai rata-rata 97.33% untuk pengukuran nilai presisi, akurasi dan recall pada data uji

Download Full-text

Fuzzy support vector machine with a new fuzzy membership function for pattern classification

2008 International Conference on Machine Learning and Cybernetics ◽

10.1109/icmlc.2008.4620507 ◽

2008 ◽

Cited By ~ 3

Author(s):

Hao Tang ◽

Liang-sheng Qu

Keyword(s):

Support Vector Machine ◽

Pattern Classification ◽

Membership Function ◽

Fuzzy Membership ◽

Fuzzy Membership Function ◽

Support Vector ◽

Fuzzy Support Vector Machine

Download Full-text

A New Method of Fuzzy Support Vector Machine Algorithm for Intrusion Detection

Applied Sciences ◽

10.3390/app10031065 ◽

2020 ◽

Vol 10 (3) ◽

pp. 1065 ◽

Cited By ~ 4

Author(s):

Wei Liu ◽

LinLin Ci ◽

LiPing Liu

Keyword(s):

Support Vector Machine ◽

Membership Function ◽

Sequence Data ◽

Weight Coefficient ◽

Cluster Center ◽

Fuzzy Membership ◽

Fuzzy Membership Function ◽

Support Vector ◽

Support Vector Machine Algorithm ◽

Fuzzy Support Vector Machine

Since SVM is sensitive to noises and outliers of system call sequence data. A new fuzzy support vector machine algorithm based on SVDD is presented in this paper. In our algorithm, the noises and outliers are identified by a hypersphere with minimum volume while containing the maximum of the samples. The definition of fuzzy membership is considered by not only the relation between a sample and hyperplane, but also relation between samples. For each sample inside the hypersphere, the fuzzy membership function is a linear function of the distance between the sample and the hyperplane. The greater the distance, the greater the weight coefficient. For each sample outside the hypersphere, the membership function is an exponential function of the distance between the sample and the hyperplane. The greater the distance, the smaller the weight coefficient. Compared with the traditional fuzzy membership definition based on the relation between a sample and its cluster center, our method effectively distinguishes the noises or outlies from support vectors and assigns them appropriate weight coefficients even though they are distributed on the boundary between the positive and the negative classes. The experiments show that the fuzzy support vector proposed in this paper is more robust than the support vector machine and fuzzy support vector machines based on the distance of a sample and its cluster center.

Download Full-text

Combination of Support Vector Machine and K-Fold cross-validation for prediction of long-term degradation of the compressive strength of marine concrete

International Journal of Computational Physics Series ◽

10.29167/a1i1p120-130 ◽

2018 ◽

Vol 1 (1) ◽

pp. 120-130 ◽

Cited By ~ 1

Author(s):

Chunxiang Qian ◽

Wence Kang ◽

Hao Ling ◽

Hua Dong ◽

Chengyao Liang ◽

...

Keyword(s):

Support Vector Machine ◽

Environmental Factors ◽

Cross Validation ◽

Concrete Strength ◽

Simulation Method ◽

Support Vector ◽

Svm Model ◽

Artificial Neural Network Ann ◽

Influence Degree ◽

Fold Cross Validation

Support Vector Machine (SVM) model optimized by K-Fold cross-validation was built to predict and evaluate the degradation of concrete strength in a complicated marine environment. Meanwhile, several mathematical models, such as Artificial Neural Network (ANN) and Decision Tree (DT), were also built and compared with SVM to determine which one could make the most accurate predictions. The material factors and environmental factors that influence the results were considered. The materials factors mainly involved the original concrete strength, the amount of cement replaced by fly ash and slag. The environmental factors consisted of the concentration of Mg2+, SO42-, Cl-, temperature and exposing time. It was concluded from the prediction results that the optimized SVM model appeared to perform better than other models in predicting the concrete strength. Based on SVM model, a simulation method of variables limitation was used to determine the sensitivity of various factors and the influence degree of these factors on the degradation of concrete strength.

Download Full-text

Pengenalan Wajah Manusia berbasis Algoritma Local Binary Pattern

Emitor: Jurnal Teknik Elektro ◽

10.23917/emitor.v17i2.6232 ◽

2017 ◽

Vol 17 (2) ◽

pp. 29-38

Author(s):

Ratih Purwati ◽

Gunawan Ariyanto

Keyword(s):

Computer Vision ◽

Support Vector Machine ◽

Face Recognition ◽

Local Binary Pattern ◽

Cross Validation ◽

Support Vector ◽

Fold Cross Validation

Face Recognition merupakan teknologi komputer untuk mengidentifikasi wajah manusia melalui gambar digital yang tersimpan di database. Wajah manusia dapat berubah bentuk sesuai dengan ekspresi yang dimilikinya. Wajah manusia dapat berubah bentuk sesuai dengan eskpresi yang dimilikinya. Ekspresi wajah manusia memiliki kemiripan satu sama lain sehingga untuk mengenali suatu ekspresi adalah kepunyaan siapa akan sedikit sulit. Pengenalan wajah terus menjadi topik aktif di zaman sekarang pada penelitian bidang computer vision. Penggunaan wajah manusia sering kita jumpai pada fitur-fitur aplikasi media sosial seperti Snapchat, Snapgram dari Instagram dan banyak aplikasi sosial media lainnya yang menggunakan teknologi tersebut. Pada penelitian ini dilakukan analisa pengenalan ekpresi wajah manusia dengan pendekatan fitur alogaritma Local Binary Pattern dan mencari pengembangan alogaritma dasar Local Binary Pattern yang paling optimal dengan cara menggabungkan metode Hisogram Equalization, Support Vector Machine, dan K-fold cross validation sehingga dapat meningkatkan pengenalan gambar wajah manusia pada hasil yang terbaik. Penelitian ini menginput beberapa database wajah manusia seperti JAFFE yang merupakan gambar wajah manusia wanita jepang yang berjumlah 10 orang dengan 7 ekspresi emosional seperti marah, sedih, bahagia, jijik, kaget, takut dan netral ke dalam sistem. YALE yaitu merupakan gambar wajah manusia orang Amerika. Serta menggunakan dataset CALTECH yang merupakan gambar manusia yang terdiri dari 450 gambar dengan ukuran 896 x 592 piksel dan disimpan dalam format JPEG. Kemudian data tersebut di sesuaikan dengan bentuk tekstur wajah masing-masing. Dari hasil penggabungan ketiga metode diatas dan percobaan-percobaan yang sudah dilakukan, didapatkan hasil yang paling optimal dalam pengenalan wajah manusia yaitu menggunakan dataset JAFFE dengan resolusi 92 x 112 piksel dan dengan tingkat penggunaan processor yang tinggi dapat mempengaruhi waktu kecepatan komputasi dalam proses menjalankan sistem sehingga menghasilkan prediksi yang lebih tepat.

Download Full-text

Research on Parallel Support Vector Machine Based on Spark Big Data Platform

Scientific Programming ◽

10.1155/2021/7998417 ◽

2021 ◽

Vol 2021 ◽

pp. 1-9

Author(s):

Yao Huimin

Keyword(s):

Machine Learning ◽

Support Vector Machine ◽

Big Data ◽

Support Vector Machines ◽

Cross Validation ◽

Machine Learning Algorithms ◽

Support Vector ◽

Lambda Architecture ◽

Vector Machines ◽

Data Platform

With the development of cloud computing and distributed cluster technology, the concept of big data has been expanded and extended in terms of capacity and value, and machine learning technology has also received unprecedented attention in recent years. Traditional machine learning algorithms cannot solve the problem of effective parallelization, so a parallelization support vector machine based on Spark big data platform is proposed. Firstly, the big data platform is designed with Lambda architecture, which is divided into three layers: Batch Layer, Serving Layer, and Speed Layer. Secondly, in order to improve the training efficiency of support vector machines on large-scale data, when merging two support vector machines, the “special points” other than support vectors are considered, that is, the points where the nonsupport vectors in one subset violate the training results of the other subset, and a cross-validation merging algorithm is proposed. Then, a parallelized support vector machine based on cross-validation is proposed, and the parallelization process of the support vector machine is realized on the Spark platform. Finally, experiments on different datasets verify the effectiveness and stability of the proposed method. Experimental results show that the proposed parallelized support vector machine has outstanding performance in speed-up ratio, training time, and prediction accuracy.

Download Full-text

Abstract 473: Identification of Apolipoproteins Using Feature Selection Technique

Arteriosclerosis Thrombosis and Vascular Biology ◽

10.1161/atvb.36.suppl_1.473 ◽

2016 ◽

Vol 36 (suppl_1) ◽

Author(s):

Hua Tang ◽

Hao Lin

Keyword(s):

Support Vector Machine ◽

Cross Validation ◽

Support Vector ◽

Feature Subset ◽

Risk Markers ◽

Dipeptide Composition ◽

Accurate Identification ◽

Feature Selection Technique ◽

Physiological Importance ◽

Fold Cross Validation

Objective: Apolipoproteins are of great physiological importance and are associated with different diseases such as dyslipidemia, thrombogenesis and angiocardiopathy. Apolipoproteins have therefore emerged as key risk markers and important research targets yet the types of apolipoproteins has not been fully elucidated. Accurate identification of the apoliproproteins is very crucial to the comprehension of cardiovascular diseases and drug design. The aim of this study is to develop a powerful model to precisely identify apolipoproteins. Approach and Results: We manually collected a non-redundant dataset of 53 apoliproproteins and 136 non-apoliproproteins with the sequence identify of less than 40% from UniProt. After formulating the protein sequence samples with g -gap dipeptide composition (here g =1~10), the analysis of various (ANOVA) was adopted to find out the best feature subset which can achieve the best accuracy. Support Vector Machine (SVM) was then used to perform classification. The predictive model was evaluated using a five-fold cross-validation which yielded a sensitivity of 96.2%, a specificity of 99.3%, and an accuracy of 98.4%. The study indicated that the proposed method could be a feasible means of conducting preliminary analyses of apoliproproteins. Conclusion: We demonstrated that apoliproproteins can be predicted from their primary sequences. Also we discovered the special dipeptide distribution in apoliproproteins. These findings open new perspectives to improve apoliproproteins prediction by considering the specific dipeptides. We expect that these findings will help to improve drug development in anti-angiocardiopathy disease. Key words: Apoliproproteins Angiocardiopathy Support Vector Machine

Download Full-text

Analisis Perbandingan Algoritma SVM, KNN, dan CNN untuk Klasifikasi Citra Cuaca

Jurnal Teknologi Informasi dan Ilmu Komputer ◽

10.25126/jtiik.2021824553 ◽

2021 ◽

Vol 8 (2) ◽

pp. 311

Author(s):

Mohammad Farid Naufal

Keyword(s):

Neural Network ◽

Machine Learning ◽

Computer Vision ◽

Support Vector Machine ◽

Convolutional Neural Network ◽

Cross Validation ◽

Nearest Neighbors ◽

Support Vector ◽

Classification Algorithms ◽

K Nearest Neighbors

Cuaca merupakan faktor penting yang dipertimbangkan untuk berbagai pengambilan keputusan. Klasifikasi cuaca manual oleh manusia membutuhkan waktu yang lama dan inkonsistensi. Computer vision adalah cabang ilmu yang digunakan komputer untuk mengenali atau melakukan klasifikasi citra. Hal ini dapat membantu pengembangan self autonomous machine agar tidak bergantung pada koneksi internet dan dapat melakukan kalkulasi sendiri secara real time. Terdapat beberapa algoritma klasifikasi citra populer yaitu K-Nearest Neighbors (KNN), Support Vector Machine (SVM), dan Convolutional Neural Network (CNN). KNN dan SVM merupakan algoritma klasifikasi dari Machine Learning sedangkan CNN merupakan algoritma klasifikasi dari Deep Neural Network. Penelitian ini bertujuan untuk membandingkan performa dari tiga algoritma tersebut sehingga diketahui berapa gap performa diantara ketiganya. Arsitektur uji coba yang dilakukan adalah menggunakan 5 cross validation. Beberapa parameter digunakan untuk mengkonfigurasikan algoritma KNN, SVM, dan CNN. Dari hasil uji coba yang dilakukan CNN memiliki performa terbaik dengan akurasi 0.942, precision 0.943, recall 0.942, dan F1 Score 0.942. AbstractWeather is an important factor that is considered for various decision making. Manual weather classification by humans is time consuming and inconsistent. Computer vision is a branch of science that computers use to recognize or classify images. This can help develop self-autonomous machines so that they are not dependent on an internet connection and can perform their own calculations in real time. There are several popular image classification algorithms, namely K-Nearest Neighbors (KNN), Support Vector Machine (SVM), and Convolutional Neural Network (CNN). KNN and SVM are Machine Learning classification algorithms, while CNN is a Deep Neural Networks classification algorithm. This study aims to compare the performance of that three algorithms so that the performance gap between the three is known. The test architecture is using 5 cross validation. Several parameters are used to configure the KNN, SVM, and CNN algorithms. From the test results conducted by CNN, it has the best performance with 0.942 accuracy, 0.943 precision, 0.942 recall, and F1 Score 0.942.

Download Full-text