Bayes Classifier dan Support Vector Machine dalam Klasifikasi Judul Karya Akhir Mahasiswa Program Studi PTIK UNJ

Razi Aziz Syahputro;  Widodo; Hamidillah Ajie

doi:10.21009/pinter.3.1.9

Bayes Classifier dan Support Vector Machine dalam Klasifikasi Judul Karya Akhir Mahasiswa Program Studi PTIK UNJ

PINTER Jurnal Pendidikan Teknik Informatika dan Komputer ◽

10.21009/pinter.3.1.9 ◽

2019 ◽

Vol 3 (1) ◽

pp. 54-62

Author(s):

Razi Aziz Syahputro ◽

Widodo ◽

Hamidillah Ajie

Keyword(s):

Support Vector Machine ◽

Cross Validation ◽

Nearest Neighbor ◽

Confusion Matrix ◽

Vector Space Model ◽

Support Vector ◽

Bayes Classifier ◽

K Nearest Neighbor ◽

Space Model ◽

Fold Cross Validation

Penelitian ini dilatarbelakangi dengan dibutuhkannya sistem pengklasifikasian untuk memudahkan pihak Jurusan Teknik Elektro khususnya Program Studi PTIK untuk mengklasifikasikan judul skripsi berdasarkan peminatan. Sebelum sistem dibuat diperlukan pertimbangan dari beberapa algoritma klasifikasi yang ada, maka dari itu penelitian ini memilih 3 algoritma dari 10 algoritma terbaik menurut ICDM tahun 2006. Klasifikasi terhadap dokumen teks pendek seperti judul skripsi mahasiswa memiliki kesulitan tersendiri daripada dokumen teks panjang karena semakin sedikit kata semakin sulit diklasifikasi. Sehingga tujuan dari penelitian ini adalah untuk mengetahui algoritma yang paling efektif untuk mengklasifikasi judul skripsi. Penelitian ini terdiri dari beberapa tahap yaitu pengumpulan data, pengelompokan data melalui angket oleh dosen ahli, pre-processing text, pembobotan kata menggunakan vector space model dan tf-idf, evaluasi dengan k-fold cross validation, klasifikasi menggunakan k-nearest neighbor, naïve bayes classifier, dan support vector machine, dan analisis dengan confusion matrix. Percobaan dilakukan dengan menggunakan 266 data judul skripsi mahasiswa PTIK UNJ dari angkatan 2010-2013, dengan data terakhir berasal dari sidang skripsi pada semester 105(semester ganjil 2016/2017). Hasil dari klasifikasi menggunakan algoritma tersebut didapatkan algoritma yang paling efisien yaitu support vector machine dengan akurasi 82% dari 10 kali percobaan.

Download Full-text

Perbandingan Akurasi dan Waktu Proses Algoritma K-NN dan SVM dalam Analisis Sentimen Twitter

Jurnal Informatika ◽

10.31311/ji.v6i2.5129 ◽

2019 ◽

Vol 6 (2) ◽

pp. 226-235

Author(s):

Muhammad Rangga Aziz Nasution ◽

Mardhiya Hayaty

Keyword(s):

Machine Learning ◽

Support Vector Machine ◽

Unsupervised Learning ◽

Supervised Learning ◽

Cross Validation ◽

Nearest Neighbor ◽

Support Vector ◽

K Nearest Neighbor ◽

Fold Cross Validation

Salah satu cabang ilmu komputer yaitu pembelajaran mesin (machine learning) menjadi tren dalam beberapa waktu terakhir. Pembelajaran mesin bekerja dengan memanfaatkan data dan algoritma untuk membuat model dengan pola dari kumpulan data tersebut. Selain itu, pembelajaran mesin juga mempelajari bagaimama model yang telah dibuat dapat memprediksi keluaran (output) berdasarkan pola yang ada. Terdapat dua jenis metode pembelajaran mesin yang dapat digunakan untuk analisis sentimen: supervised learning dan unsupervised learning. Penelitian ini akan membandingkan dua algoritma klasifikasi yang termasuk dari supervised learning: algoritma K-Nearest Neighbor dan Support Vector Machine, dengan cara membuat model dari masing-masing algoritma dengan objek teks sentimen. Perbandingan dilakukan untuk mengetahui algoritma mana lebih baik dalam segi akurasi dan waktu proses. Hasil pada perhitungan akurasi menunjukkan bahwa metode Support Vector Machine lebih unggul dengan nilai 89,70% tanpa K-Fold Cross Validation dan 88,76% dengan K-Fold Cross Validation. Sedangkan pada perhitungan waktu proses metode K-Nearest Neighbor lebih unggul dengan waktu proses 0.0160s tanpa K-Fold Cross Validation dan 0.1505s dengan K-Fold Cross Validation.

Download Full-text

Analisis Perbandingan Performa Metode Klasifikasi pada Dataset Multiclass Citra Busur Panah

Techno Com ◽

10.33633/tc.v19i3.3646 ◽

2020 ◽

Vol 19 (3) ◽

pp. 286-294

Author(s):

Huzain Azis ◽

Fadhila Tangguh Admojo ◽

Erma Susanti

Keyword(s):

Support Vector Machine ◽

Discriminant Analysis ◽

Cross Validation ◽

Nearest Neighbor ◽

Random Forest Classifier ◽

Support Vector ◽

Quadratic Discriminant Analysis ◽

Bayes Classifier ◽

K Nearest Neighbor ◽

F Measure

Pengujian performa berbagai metode pada sebuah dataset merupakan salah satu cara dalam penetapan metode klasifikasi yang tepat, masalah yang diangkat pada penelitian ini adalah bagaimana membandingkan performa beberapa metode klasifikasi dalam mengelola dataset yang memiliki lebih dari dua label (multiclass). Penelitian ini fokus membandingkan hasil performa tujuh metode klasifikasi yaitu K-Nearest Neighbor (knn), Naive Bayes Classifier (nbc), Support Vector machine (svm), Neural Netowork (nn), Random Forest Classifier (rfc), Ada Boost Classifier (abc) dan Quadratic Discriminant Analysis (qdc). Objek pada penelitian ini berupa dataset multiclass yaitu dataset citra busur panah, serta performa yang diukur yaitu seluruh nilai cross-validation dari akurasi, presisi, recall dan f-measure. Hasil pada penelitian ini menunjukkan bahwa seluruh metode tidak memperoleh performa yang cukup baik, dan menunjukkan bahwa beberapa metode yang memiliki akurasi yang tinggi tidak menjadi penentu menjadi metode yang baik dikarenakan setelah penerapan cross-validation dan visualisasi boxplot ditemukan beberapa nilai akurasi tinggi yang merupakan nilai tidak wajar atau outlier. Kesimpulan menunjukkan metode svm memiliki performa yang lebih baik dibandingkan dengan enam metode lainnya pada kasus dataset multiclass citra busur panah.

Download Full-text

Comparison of the Performance of the k-Nearest Neighbor, Naïve Bayes Classifier and Support Vector Machine Algorithm With SMOTE for Classification of Bully Behavior on the WhatsApp Messenger Application

Proceedings of the 1st International Conference on Folklore, Language, Education and Exhibition (ICOFLEX 2019) ◽

10.2991/assehr.k.201230.028 ◽

2020 ◽

Author(s):

Irwansyah Saputra ◽

Puput Irfansyah ◽

Erlando Doni Sirait ◽

Dwi Dani Apriyani ◽

Michael Sonny

Keyword(s):

Support Vector Machine ◽

Nearest Neighbor ◽

Naive Bayes ◽

Naïve Bayes ◽

Support Vector ◽

Support Vector Machine Algorithm ◽

Bayes Classifier ◽

K Nearest Neighbor ◽

Bully Behavior

Download Full-text

Analisis Perbandingan Algoritma Klasifikasi Citra Chest X-ray Untuk Deteksi Covid-19

Teknika ◽

10.34148/teknika.v10i2.331 ◽

2021 ◽

Vol 10 (2) ◽

pp. 96-103

Author(s):

Mohammad Farid Naufal ◽

Selvia Ferdiana Kusuma ◽

Kevin Christian Tanus ◽

Raynaldy Valentino Sukiwun ◽

Joseph Kristiano ◽

...

Keyword(s):

Neural Network ◽

Support Vector Machine ◽

Cross Validation ◽

Nearest Neighbor ◽

Nearest Neighbors ◽

Support Vector ◽

K Nearest Neighbor ◽

K Nearest Neighbors ◽

X Ray ◽

Chest X Ray

Kondisi pandemi global Covid-19 yang muncul diakhir tahun 2019 telah menjadi permasalahan utama seluruh negara di dunia. Covid-19 merupakan virus yang menyerang organ paru-paru dan dapat mengakibatkan kematian. Pasien Covid-19 banyak yang telah dirawat di rumah sakit sehingga terdapat data citra chest X-ray paru-paru pasien yang terjangkit Covid-19. Saat ini sudah banyak peneltian yang melakukan klasifikasi citra chest X-ray menggunakan Convolutional Neural Network (CNN) untuk membedakan paru-paru sehat, terinfeksi covid-19, dan penyakit paru-paru lainnya, namun belum ada penelitian yang mencoba membandingkan performa algoritma CNN dan machine learning klasik seperti Support Vector Machine (SVM), dan K-Nearest Neighbor (KNN) untuk mengetahui gap performa dan waktu eksekusi yang dibutuhkan. Penelitian ini bertujuan untuk membandingkan performa dan waktu eksekusi algoritma klasifikasi K-Nearest Neighbors (KNN), Support Vector Machine (SVM), dan CNN untuk mendeteksi Covid-19 berdasarkan citra chest X-Ray. Berdasarkan hasil pengujian menggunakan 5 Cross Validation, CNN merupakan algoritma yang memiliki rata-rata performa terbaik yaitu akurasi 0,9591, precision 0,9592, recall 0,9591, dan F1 Score 0,959 dengan waktu eksekusi rata-rata sebesar 3102,562 detik.

Download Full-text

KOMPARASI METODE KLASIFIKASI PADA ANALISIS SENTIMEN USAHA WARALABA BERDASARKAN DATA TWITTER

Jurnal Pilar Nusa Mandiri ◽

10.33480/pilar.v15i2.752 ◽

2019 ◽

Vol 15 (2) ◽

pp. 267-274

Author(s):

Tati Mardiana ◽

Hafiz Syahreva ◽

Tuslaela Tuslaela

Keyword(s):

Neural Network ◽

Support Vector Machine ◽

Decision Tree ◽

Nearest Neighbor ◽

Naive Bayes ◽

Confusion Matrix ◽

Naïve Bayes ◽

Support Vector ◽

K Nearest Neighbor

Saat ini usaha waralaba di Indonesia memiliki daya tarik yang relatif tinggi. Namun, para pelaku usaha banyak juga yang mengalami kegagalan. Bagi seseorang yang ingin memulai usaha perlu mempertimbangkan sentimen masyarakat terhadap usaha waralaba. Meskipun demikian, tidak mudah untuk melakukan analisis sentimen karena banyaknya jumlah percakapan di Twitter terkait usaha waralaba dan tidak terstruktur. Tujuan penelitian ini adalah melakukan komparasi akurasi metode Neural Network, K-Nearest Neighbor, Naïve Bayes, Support Vector Machine, dan Decision Tree dalam mengekstraksi atribut pada dokumen atau teks yang berisi komentar untuk mengetahui ekspresi didalamnya dan mengklasifikasikan menjadi komentar positif dan negatif. Penelitian ini menggunakan data realtime dari tweets pada Twitter. Selanjutnya mengolah data tersebut dengan terlebih dulu membersihkannya dari noise dengan menggunakan Phyton. Hasil pengujian dengan confusion matrix diperoleh nilai akurasi Neural Network sebesar 83%, K-Nearest Neighbor sebesar 52%, Support Vector Machine sebesar 83%, dan Decision Tree sebesar 81%. Penelitian ini menunjukkan metode Support Vector Machine dan Neural Network paling baik untuk mengklasifikasikan komentar positif dan negatif terkait usaha waralaba.

Download Full-text

Perbandingan Kinerja Algoritma K-Nearest Neighbor, Naïve Bayes Classifier dan Support Vector Machine dalam Klasifikasi Tingkah Laku Bully pada Aplikasi Whatsapp

Faktor Exacta ◽

10.30998/faktorexacta.v12i2.4181 ◽

2019 ◽

Vol 12 (2) ◽

pp. 101

Author(s):

Irwansyah Saputra ◽

Didi Rosiyadi

Keyword(s):

Support Vector Machine ◽

Nearest Neighbor ◽

Naive Bayes ◽

Naïve Bayes ◽

Support Vector ◽

Naive Bayes Classifier ◽

Bayes Classifier ◽

K Nearest Neighbor ◽

Naïve Bayes Classifier

Download Full-text

Klasifikasi Artikel Ilmiah Dengan Berbagai Skenario Preprocessing

Sains, Aplikasi, Komputasi dan Teknologi Informasi ◽

10.30872/jsakti.v2i2.2681 ◽

2020 ◽

Vol 2 (2) ◽

pp. 70

Author(s):

Hidayatul Ma'rifah ◽

Aji Prasetya Wibawa ◽

Muhammad Iqbal Akbar

Keyword(s):

Text Mining ◽

Vector Space ◽

Cross Validation ◽

Confusion Matrix ◽

Vector Space Model ◽

Nearest Neighbour ◽

Inverse Document Frequency ◽

Space Model ◽

Document Frequency ◽

Fold Cross Validation

Penelitian ini bertujuan untuk menemukan kombinasi dan urutan preprocessing dalam text mining yang paling maksimal untuk klasifikasi bidang jurnal berbahasa Indonesia berdasarkan judul dan abstraknya. Tahap-tahap preprocessing yang akan diterapkan terdiri dari case folding, stemming, stopwords removal, transformasi VSM (Vector Space Model), dan SMOTE. Namun, pengamatan tiap skenario berfokus pada stemming dan dua teknik stopwords removal, yaitu stopwords removal berbasis kamus, dan berbasis document frequency setelah melewati proses transformasi ke dalam bentuk VSM dengan pembobotan TF-IDF (Term Trequency–Inverse Document Frequency). Proses klasifikasi mengadopsi algoritma k-NN (K-Nearest Neighbour), yang menentukan kelas suatu data tes dengan melihat tetangga terdekatnya. Dalam penelitian ini, metrik untuk menemukan jarak tetangga terdekat adalah Cosine Similarity. Pengujian klasifikasi menggunakan 10-Fold Cross Validation untuk menghasilkan confusion matrix sebagai hasil akhir. Kinerja klasifikasi terbaik dicapai dengan persentase accuracy sebesar 72.91% dan precision mencapai 73,36%.

Download Full-text

A hybrid cost-sensitive ensemble for heart disease prediction

10.21203/rs.2.22946/v1 ◽

2020 ◽

Author(s):

Zhenya Qi ◽

Zuoru Zhang

Keyword(s):

Heart Disease ◽

Cross Validation ◽

Nearest Neighbor ◽

Support Vector ◽

K Nearest Neighbor ◽

Misclassification Cost ◽

Proposed Model ◽

Learning Machine ◽

Fold Cross Validation ◽

Very High

Abstract Heart disease is the primary cause of morbidity and mortality in the world. It includes numerous problems and symptoms. The diagnosis of heart disease is difficult because there are too many factors to analyze. What's more, the misclassification cost could be very high. In this paper, I firstly propose a cost-sensitive ensemble model to improve the accuracy of diagnosis and reduce the misclassification cost. The proposed model contains five heterogeneous classifiers: random forest, logistic regression, support vector machine, extreme learning machine and k-nearest neighbor. Then, experiments are done on three datasets from UCI machine learning repository. The highest classification accuracy of 91.74%, highest G-mean of 90.55%, highest precision of 96.11%, highest recall of 89.61% and lowest misclassification cost of 30.32% are achieved by the proposed model according to ten-fold cross validation. The results demonstrate that the performance of the proposed model is superior to those of previously reported classification techniques.

Download Full-text

Studi Komparasi Algoritma Klasifikasi Mental Workload Berdasarkan Sinyal EEG

Jurnal Sistem Cerdas ◽

10.37396/jsc.v3i2.69 ◽

2020 ◽

Vol 3 (2) ◽

pp. 133-143

Author(s):

Dessy Kusumaningrum ◽

Elly Matul Imah

Keyword(s):

Random Forest ◽

Cross Validation ◽

Nearest Neighbor ◽

Mental Workload ◽

Principal Component ◽

Support Vector ◽

Multi Layer Perceptron ◽

K Nearest Neighbor ◽

Electroencephalogram Eeg ◽

Fold Cross Validation

Kondisi psikologis dan fisik manusia dapat memengaruhi proses berpikir. Apabila kondisi individu mengalami kelelahan, maka dapat memengaruhi penurunan tingkat produktivitas maupun penurunan proses berpikir yang menyebabkan timbulnya mental workload. Workload yang dimiliki harus seimbang terhadap kemampuan dan keterbatasan yang dimiliki. Mental workload yang berlebih berdampak buruk bagi individu karena menimbulkan penurunan produktivitas kerja. Perangkat khusus yang dapat digunakan untuk mengetahui tingkat mental workload seorang individu adalah Electroencephalogram (EEG). EEG adalah perangkat khusus yang digunakan untuk mengukur sinyal potensi listrik dari otak. Dataset yang digunakan dalam penelitian ini adalah STEW: Simultaneous Task EEG Dataset dengan 45 subjek. Dalam penelitian ini, telah dilakukan studi komparasi algoritma Random Forest, K-Nearest Neighbor (KNN), Multi-Layer Perceptron (MLP), dan Support Vector Machine (SVM) untuk klasifikasi mental workload berdasarkan sinyal EEG. Studi dilakukan untuk menentukan algoritma terbaik dalam klasifikasi dilihat dari segi nilai akurasi dan penggunaan memori saat proses klasifikasi. Dataset telah melalui beberapa tahapan, diantaranya pra-pemrosesan data, ekstraksi fitur, dan proses klasifikasi. Pra-pemrosesan data menerapkan pembagian data menjadi beberapa chunk. Untuk mendapatkan ciri dalam ekstraksi fitur, diterapkan metode Principal Component Analysis (PCA). Pada proses klasifikasi menggunakan pendekatan k-fold cross validation. Hasil studi penelitian ini adalah algoritma terbaik dari sisi akurasi adalah algoritma KNN, algoritma terbaik dari sisi waktu pembuatan model adalah algoritma Random Forest, serta algoritma terbaik dari sisi penggunaan memori adalah algoritma MLP.

Download Full-text

Seleksi Fitur Support Vector Machine pada Analisis Sentimen Keberlanjutan Pembelajaran Daring

Techno Com ◽

10.33633/tc.v19i4.4044 ◽

2020 ◽

Vol 19 (4) ◽

pp. 437-448

Author(s):

Amar P. Natasuwarna

Keyword(s):

Support Vector Machine ◽

Cross Validation ◽

Confusion Matrix ◽

Support Vector ◽

Term Frequency ◽

Processing Data ◽

Fold Cross Validation

Pernyataan Mendikbud Republik Indonesia mengenai keberlanjutan pembelajaran daring memperoleh komentar positif dan negatif dari masyarakat melalui Twitter. Tweet atau komentar masyarakat berbahasa Indonesia melalui Twitter diambil secara crawling. Komentar tersebut merupakan opini masyarakat yang perlu didengar. Permasalahannya, komentar tersebut sulit dipilah untuk mendapatkan term atau kata hasil dari komentar positif atau negatif sehubungan penggunaan ragam kata yang digunakan diantaranya penggunaan bahasa tidak formal, simbol, singkatan, bahasa asing, dan bahasa daerah. Untuk mengatasi hal tersebut dilakukan penelitian menggunakan analisis sentimen. Tahapan penelitian yang dilakukan terdiri dari pengambilan data mentah; pre-processing data; seleksi fitur dengan Term Frequency dan TF-IDF; klasifikasi dengan Support Vector Machine (SVM); dan evaluasi menggunakan k-Fold Cross Validation dan Confusion Matrix. Tujuan penelitian adalah melakukan analisis sentimen komentar masyarakat terhadap pernyataan Mendikbud mengenai keberlanjutan pembelajaran daring dengan klasifikasi dua kelas yaitu positif dan negatif. Data yang digunakan berjumlah 200 data tweet terdiri dari 100 komentar positif dan 100 komentar negatif menggunakan lima rasio perbandingan data latih dan data uji. Penelitian ini menghasilkan evaluasi yang cukup baik sehingga kata-kata dengan nilai seleksi fitur tertinggi dapat menjadi bahan pertimbangan mewakili suara masyarakat yang disampaikan melalui Twitter, dimana diperoleh nilai tertinggi pada accuracy sebesar 86,00%, precision sebesar 87,38%, dan recall sebesar 85,02%.

Download Full-text