• Document: IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA
  • Size: 303.17 KB
  • Uploaded: 2019-03-24 06:55:04
  • Status: Successfully converted


Some snippets from your converted document:

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto1, Faisal Rahutomo2, Dwi Puspitasari3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik Negeri Malang Email: 1 hardiyantoerik@gmail.com, 2 faisal.polinema@gmail.com, 3 dwi_sti@yahoo.com Abstrak Suatu hal yang dibutuhkan seiring dengan perkembangan teknologi informasi dan komunikasi adalah informasi. Salah satu sumber informasi tersebut adalah Wikipedia Bahasa Indonesia. Banyaknya artikel yang masuk dalam beberapa kategori menyebabkan pembaca kesulitan dalam mencari informasi, terutama dalam pencarian berdasarkan kategori. Oleh karena itu diperlukan sebuah klasifikasi untuk artikel Wikipedia agar memiliki tepat satu kategori namun tetap dapat berhubungan dengan kategori lainnya. Diperlukan sistem yang dapat mengklasifikasi artikel Wikipedia Indonesia secara otomatis. Klasifikasi artikel Wikipedia Indonesia adalah sebuah sistem yang berfungsi untuk mengklasifikasi artikel Wikipedia Indonesia yang berupa dokumen teks dengan tahapan text preprocessing dilanjutkan dengan pembobotan TF IDF pada masing-masing artikel Wikipedia Indonesia terbentuk vektor kata. Berdasarkan pembobotan tersebut, artikel-artikel Wikipedia Indonesia tersebut diklasifikasikan dengan metode K Nearest Neighbor. Perhitungan centroid pada masing- maing sub sub kategori terdiri dari tiga buah artikel yang diambil nilai tengahnya kemudian dihitung jarak kedekatan dengan masing-masing data uji. Berdasarkan hasil pengujian manual menunjukkan akurasi kebenaran sebesar 60%. Kata kunci: text preprocessing, pembobotan TF IDF, vektor kata, K Nearest Neighbor. 1. Pendahuluan waktu yang lama. Oleh karena itu diperlukan sistem Wikipedia merupakan ensiklopedia elektronik yang dapat mengklasifikasi artikel Wikipedia secara terbesar di dunia saat ini(Wang, 2008). Wikipedia otomatis dengan menggunakan metode text Indonesia adalah versi Bahasa Indonesia dari preprocessing untuk mengolah teks pada artikel ensiklopedia. Wikipedia sebagai ensiklopedia yang Wikipedia sehingga hasil pengolahan teks tersebut dapat disunting bebas oleh siapa saja melalui dapat dimanfaatkan untuk klasfikasi artikel jaringan Internet. Wikipedia Indonesia memiliki menggunakan metode KNN. 371.150 lebih artikel (sumber: https://id.wikipedia.org/wiki/Wikipedia_bahasa_Ind 2. Text Preprocessing onesia). Satu artikel Wikipedia Indonesia bukan Dikarenakan dokumen teks memiliki data yang hanya untuk satu kategori, melainkan beberapa tidak terstruktur maka digunakanlah text kategori. Sebagai contoh artikel bahasa Jawa dapat preprocessing ini untuk merubah data yang belum termasuk dalam kategori bahasa, Bahasa Indonesia, terstruktur itu menjadi sebuah data yang terstruktur dan bahasa daerah. sehingga dapat siap untuk digunakan dalam proses Hal tersebut dapat menyebabkan pembaca selanjutnya. Text Preprocessing ini memiliki kesulitan dalam mencari informasi, terutama dalam beberapa tahapan yaitu (Nugroho, 2016): pencarian berdasarkan kategori. Oleh karena itu a. Mengekstrak teks yang akan kita olah. diperlukan sebuah klasifikasi untuk artikel b. Melakukan stopword, yaitu menghilangkan Wikipedia agar memiliki tepat satu kategori namun kata-kata yang tidak bermakna misalkan kata tetap dapat berhubungan dengan kategori lainnya. hubung. Dalam permasalahan seperti ini, penulis menggunakan. Metode tersebut adalah K Nearest 3. Pembobotan TF IDF Neighbor (KNN). Metode KNN merupakan metode Term Frequency dan Inverse Document untuk data yang sebelumnya telah memiliki kelas, Frequency (TF IDF) merupakan pembobotan yang oleh karena itu diperlukan data latih dan data uji. sering digunakan dalam penelusuran informasi dan Metode KNN dapat melakukan klasifikasi terhadap text mining (Turney dkk, 2010). Term frequency dokumen-dokumen yang telah menghasilkan nilai adalah pembobotan yang sederhana dimana penting similaritas(Purwanti, 2015). Perhitungan similaritas tidaknya sebuah kata dianggap sama atau sebanding tersebut menggunakan pendekatan euclidean dengan jumlah kemunculan kata tersebut dalam distance. dokumen, sementara itu inverse document frequency Banyaknya jumlah artikel Wikipedia yang akan (IDF) adalah pembobotan yang mengukur penting diklasifikasi membutuhkan proses klasifikasi dengan sebuah kata dalam dokumen dilihat pada seluruh � , : Jarak dokumen ke- ke dokumen secara global (Purwanti, 2015)rumus: dokumen ke- � , =

Recently converted files (publicly available):