scholarly journals Writer Identification Using Handwritten Cursive Texts and Single Character Words

Electronics ◽  
2019 ◽  
Vol 8 (4) ◽  
pp. 391 ◽  
Author(s):  
Tobias Kutzner ◽  
Carlos Pazmiño-Zapatier ◽  
Matthias Gebhard ◽  
Ingrid Bönninger ◽  
Wolf-Dietrich Plath ◽  
...  

One of the biometric methods in authentication systems is the writer verification/identification using password handwriting. The main objective of this paper is to present a robust writer verification system by using cursive texts as well as block letter words. To evaluate the system, two datasets have been used. One of them is called Secure Password DB 150, which is composed of 150 users with 18 samples of single character words per user. Another dataset is public and called IAM online handwriting database, and it is composed of 220 users of cursive text samples. Each sample has been defined by a set of features, composed of 67 geometrical, statistical, and temporal features. In order to get more discriminative information, two feature reduction methods have been applied, Fisher Score and Info Gain Attribute Evaluation. Finally, the classification system has been implemented by hold-out cross validation and k-folds cross validation strategies for three different classifiers, K-NN, Naïve Bayes and Bayes Net classifiers. Besides, it has been applied for verification and identification approaches. The best results of 95.38% correct classification are achieved by using the k-nearest neighbor classifier for single character DB. A feature reduction by Info Gain Attribute Evaluation improves the results for Naïve Bayes Classifier to 98.34% for IAM online handwriting DB. It is concluded that the set of features and its reduction are a strong selection for the based-password handwritten writer identification in comparison with the state-of-the-art.

2016 ◽  
Vol 7 (4) ◽  
Author(s):  
Mochammad Yusa ◽  
Ema Utami ◽  
Emha T. Luthfi

Abstract. Readmission is associated with quality measures on patients in hospitals. Different attributes related to diabetic patients such as medication, ethnicity, race, lifestyle, age, and others result in the calculation of quality care that tends to be complicated. Classification techniques of data mining can solve this problem. In this paper, the evaluation on three different classifiers, i.e. Decision Tree, k-Nearest Neighbor (k-NN), dan Naive Bayes with various settingparameter, is developed by using 10-Fold Cross Validation technique. The targets of parameter performance evaluated is based on term of Accuracy, Mean Absolute Error (MAE), dan Kappa Statistic. The selected dataset consists of 47 attributes and 49.735 records. The result shows that k-NN classifier with k=100 has a better performance in term of accuracy and Kappa Statistic, but Naive Bayes outperforms in term of MAE among other classifiers. Keywords: k-NN, naive bayes, diabetes, readmissionAbstrak. Proses Readmisi dikaitkan dengan perhitungan kualitas penanganan pasien di rumah sakit. Perbedaan atribut-atribut yang berhubungan dengan pasien diabetes proses medikasi, etnis, ras, gaya hidup, umur, dan lain-lain, mengakibatkan perhitungan kualitas cenderung rumit. Teknik klasifikasi data mining dapat menjadi solusi dalam perhitungan kualitas ini. Teknik klasifikasi merupakan salah satu teknik data mining yang perkembangannya cukup signifikan. Di dalam penelitian ini, model algoritma klasifikasi Decision Tree, k-Nearest Neighbor (k-NN), dan Naive Bayes dengan berbagai parameter setting akan dievaluasi performanya berdasarkan nilai performa Accuracy, Mean AbsoluteError (MAE), dan Kappa Statistik dengan metode 10-Fold Cross Validation. Dataset yang dievaluasi memiliki 47 atribut dengan 49.735 records. Hasil penelitian menunjukan bahwa performa accuracy, MAE, dan Kappa Statistik terbaik didapatkan dari Model Algoritma Naive Bayes.Kata Kunci: k-NN, naive bayes, diabetes, readmisi


2019 ◽  
Vol 24 (3) ◽  
pp. 161-170
Author(s):  
Ardea Bagas Wibisono ◽  
Achmad Fahrurozi

Penyakit Jantung Koroner (PJK) menjadi penyebab kematian tertinggi pada semua umur setelah stroke. Hal ini mendorong banyak penelitian terhadap penyakit jantung koroner, salah satunya menggunakan metode berbasis komputer. Pengolahan data dalam jumlah besar dapat dilakukan dengan klasifikasi menggunakan algoritma tertentu sehingga hasilnya cepat dan akurat. Metode klasifikasi yang umum digunakan antara lain Naïve Bayes, K-Nearest Neighbor, Decision Tree dan Random Forest. Metode Naïve Bayes menggunakan probabilitas disetiap data, metode K-Nearest Neighbor menggunakan perhitungan jarak, metode Decision Tree menggunakan pohon keputusan, sedangkan metode Random Forest menggunakan beberapa pohon keputusan yang disatukan. Penelitian ini bertujuan untuk membandingkan keempat algoritma tersebut dalam mengklasifikasikan data penyakit jantung koroner. Perbandingan algoritma akan dilihat berdasarkan performance measure yang terdiri dari tingkatan akurasi, recall disetiap kelas, dan presisi disetiap kelas. Pada setiap algoritma diuji menggunakan cross validation. Berdasarkan hasil perbandingan terhadap 300 dataset penyakit jantung koroner, algoritma Random Forest lebih baik dan optimal dibanding dengan Algoritma Naïve Bayes, K-Nearest Neighbor, dan Decision Tree untuk mengklasifikasikan penyakit jantung koroner. Hasil klasifikasi dengan algoritma Random Forest memiliki rerata tingkat akurasi sebesar 85,668 % dengan recall kelas ’1’ adalah 89 %, recall kelas ’0’ adalah 83,6%, presisi kelas ’1’ adalah 85%, dan presisi kelas ’0’ adalah 85,8%.


2021 ◽  
Vol 26 (1) ◽  
pp. 65-77
Author(s):  
Muhammad Azis Suprayogi

Laras Online adalah fasilitas pada Pemkab Bogor yang diperuntukkan bagi masyarakat terutama warga Kabupaten Bogor sebagai wadah aspirasi dan pengaduan. Seiring dengan jumlah pengaduan yang masuk sangat banyak sehingga mengakibatkan waktu yang lebih lama yang digunakan oleh petugas admin dalam memilah kemudian menentukan unit tujuan pengaduan. Penelitian ini bertujuan untuk membandingkan performansi klasifikasi dokumen pengaduan pada situs Laras Online menggunakan algoritma K-Nearest Neighbor (KNN) dan Naïve Bayes Classifier (NBC). Penelitian dilakukan dengan cara mengumpulkan dokumen pengaduan, melakukan preprocessing, pembobotan kata, klasifikasi, dan pengujian. Pengujian menggunakan cross validation dengan parameter k-fold=10 dan confusion matrix berdasarkan nilai accuracy, precission, recall, dan score-f1. Hasil pengujian terhadap 360 dataset menunjukkan bahwa algoritma NBC lebih baik dari algoritma KNN dengan nilai k=3, k=5, k=7, dan k=9 untuk mengklasifikasikan dokumen pengaduan ke dalam 6 kategori. Hasil klasifikasi menggunakan algoritma NBC memberikan nilai accuracy sebesar 79,16% dengan nilai precission tertinggi pada 2 kategori yaitu Dinsos 91,30% dan SatpolPP 66,80%, nilai recall tertinggi pada 4 kategori yaitu Disdukcapil 89,90%, Dislinghidup 88,40%, Dispupr 93,20%, dan Dishub 76,50%, serta nilai score-f1 tertinggi pada 4 kategori yaitu Disdukcapil sebesar 82,10%, Dislinghidup 82,90%, Dinsos 88,90%, dan Dishub 81,20%.


Author(s):  
Noviyanti Sagala ◽  
Hendrik Tampubolon

Data mining melakukan proses ekstraksi pengetahuan yang diperoleh dari sekumpulan data dalam jumlah besar. Penelitian ini bertujuan untuk menerapkan dan melakukan analisis kinerja algoritma data mining untuk memprediksi konsumsi alkohol dan menganalisis faktor-faktor yang terkait pada siswa tingkat menengah. Adapun tahapan yang dilakukan ialah pra-proses data, seleksi fitur, klasifikasi, dan evaluasi model. Pada tahap praproses, beberapa fitur diubah menjadi bentuk yang sesuai untuk memudahkan proses klasifikasi. Selanjutnya, algoritma Gain Ratio dan Feature Correlation-Based Filter (FCBF) digunakan untuk memilih fitur-fitur yang relevan dan penting untuk digunakan dalam tahapan klasifikasi. Decision Tree C5.0, Support Vector Machine (SVM), K-Nearest Neighbor (KNN), dan Naive Bayes (NB) dieksekusi pada kelompok fitur yang terpilih. Akurasi model yang dibangun dievaluasi menggunakan 10-fold Cross-Validation (CV). Hasil penelitian menunjukkan bahwa model klasifikasi yang dibangun menggunakan Naïve Bayes memiliki nilai akurasi tertinggi dengan menggunakan 5 fitur terbaik dari Gain Ratio. Selain itu, penggunaan metode pemilihan fitur mampu meningkatkan performa dari seluruh klasifier secara umum. Pengujian lebih lanjut pada data yang sama maupun berbeda perlu dilakukan untuk mendapatkan gambaran lebih mendalam mengenai kinerja algoritma-algoritma yang digunakan.


2018 ◽  
Vol 4 (10) ◽  
pp. 6
Author(s):  
Shivangi Bhargava ◽  
Dr. Shivnath Ghosh

News popularity is the maximum growth of attention given for particular news article. The popularity of online news depends on various factors such as the number of social media, the number of visitor comments, the number of Likes, etc. It is therefore necessary to build an automatic decision support system to predict the popularity of the news as it will help in business intelligence too. The work presented in this study aims to find the best model to predict the popularity of online news using machine learning methods. In this work, the result analysis is performed by applying Co-relation algorithm, particle swarm optimization and principal component analysis. For performance evaluation support vector machine, naïve bayes, k-nearest neighbor and neural network classifiers are used to classify the popular and unpopular data. From the experimental results, it is observed that support vector machine and naïve bayes outperforms better with co-relation algorithm as well as k-NN and neural network outperforms better with particle swarm optimization.


Data mining usually specifies the discovery of specific pattern or analysis of data from a large dataset. Classification is one of an efficient data mining technique, in which class the data are classified are already predefined using the existing datasets. The classification of medical records in terms of its symptoms using computerized method and storing the predicted information in the digital format is of great importance in the diagnosis of various diseases in the medical field. In this paper, finding the algorithm with highest accuracy range is concentrated so that a cost-effective algorithm can be found. Here the data mining classification algorithms are compared with their accuracy of finding exact data according to the diagnosis report and their execution rate to identify how fast the records are classified. The classification technique based algorithms used in this study are the Naive Bayes Classifier, the C4.5 tree classifier and the K-Nearest Neighbor (KNN) to predict which algorithm is the best suited for classifying any kind of medical dataset. Here the datasets such as Breast Cancer, Iris and Hypothyroid are used to predict which of the three algorithms is suitable for classifying the datasets with highest accuracy of finding the records of patients with the particular health problems. The experimental results represented in the form of table and graph shows the performance and the importance of Naïve Bayes, C4.5 and K-Nearest Neighbor algorithms. From the performance outcome of the three algorithms the C4.5 algorithm is a lot better than the Naïve Bayes and the K-Nearest Neighbor algorithm.


2018 ◽  
Vol 6 (1) ◽  
pp. 1
Author(s):  
Qomariyatul Hasanah ◽  
Anang Andrianto ◽  
Muhammad Arief Hidayat

Sistem informasi posyandu ibu hamil dapat mengelola data kesehatan ibu hamil yang berkaitan dengan faktor resiko kehamilan. Faktor resiko kehamilan berdasarkan ketentuan Kartu Skor Poedji Rochyati (KSPR) digunakan bidan untuk menentukan resiko kehamilan dengan memberikan skor pada masing-masing parameter. KSPR memiliki kelemahan tidak dapat memberikan skor pada parameter yang belum pasti sehingga jika belum diketahui dengan pasti maka dianggap tidak terjadi. Konsep membaca pola data yang diadopsi dari teknik datamining menggunakan metode klasifikasi naive bayes dapat menjadi alternatif untuk kelemahan KSPR tersebut yaitu dengan mengklasifikasikan resiko kehamilan. Metode naïve bayes menghitung probabilitas parameter tertentu berdasarkan data pada periode sebelumnya yang telah ditentukan sebagai data training, berdasarkan hasil perhitungan tersebut dapat diketahui resiko kehamilan secara tepat sesuai parameter yang telah diketahui. Metode naïve bayes dipilih karena memiliki tingkat akurasi yang cukup tinggi daripada metode klasifikasi lainnya. Sistem informasi ini dibangun berbasis website agar dapat diakses secara mudah oleh beberapa posyandu yang berbeda tempat. Sistem dibangun mengadopsi dari model Waterfall. Sistem informasi posyandu ibu hamil dirancang dan dibangun dengan tiga (3) hak akses yaitu admin, bidan dan kader dengan masing-masing fitur yang dapat memudahkan penggunanya. Hasil dari penelitian ini adalah sistem informasi posyandu ibu hamil dengan penerapan klasifikasi resiko kehamilan menggunakan metode naïve bayes, dengan tingkat akurasi ketika menggunakan 17 atribut didapatkan 53.913%, 19 atribut didapatkan 54.348%, , 21 atribut didapatkan 54.783%, dan 22 atribut didapatkan 56.957%. Tingkat akurasi klasifikasi diperoleh menggunakan metode pengujian menggunakan Ten-Fold Cross Validation dimana training set dibagi menjadi 10 kelompok, jika kelompok 1 dijadikan test set maka kelompok 2 hingga 10 menjadi training set. Kata Kunci: Posyandu, Resiko Kehamilan, Waterfall, Datamining, Klasifikasi, Naïve bayes


Sign in / Sign up

Export Citation Format

Share Document