CodingKu

Tutorial dan Informasi Seputar Pemrograman
Algoritma KNN

Algoritma KNN (K-Nearest Neighbor)

Algoritma KNN (K-Nearest Neighbor)

Pendahuluan

KNN adalah sebuah metode klasifikasi terhadap sekumpulan data berdasarkan pembelajaran data yang sudah terklasifikasikan sebelumya. Termasuk dalam supervised learning, dimana hasil query instance yang baru diklasifikasikan berdasarkan mayoritas kedekatan jarak dari kategori yang ada dalam KNN.

Diberikan titik query, akan ditemukan sejumlah k obyek atau (titik training) yang paling dekat dengan titik query. Klasifikasi menggunakan voting terbanyak diantara klasifikasi dari k obyek Algoritma k-nearest neighbor (KNN) menggunakan klasifikasi ketetanggaan sebagai nilai prediksi dari query instance yang baru.

Ukuran Jarak

Dekat atau jauhnya tetangga biasanya dihitung berdasarkan Euclidean Distance.

Dimana D(a,b) adalah jarak skalar dari dua buah vektor data a dan b yang berupa matrik berukuran d dimensi.

Kelebihan KNN

  • Simpel
  • Efektif jika data besar
  • Intuitif
  • Peforma cukup baik
  • Tahan terhadap data latih yang noisy

Kekurangan KNN

  • Waktu komputasi tinggi jika data latih besar. Disebabkan oleh semua data diukur jaraknya untuk setiap data uji.
  • Sangat sensitive dengan ciri yang redundan atau tidak relevan. Ditanggulangi dengan seleksi ciri atau pembobotan ciri.
  • Tidak diketahui perhitungan jarak apa yang paling sesuai untuk dataset tertentu.

Algoritma KNN

  • Menentukan parameter k (jumlah tetangga paling dekat).
  • Menghitung kuadrat jarak eucliden objek terhadap data training yang diberikan.
  • Mengurutkan hasil no 2 secara ascending
  • Mengumpulkan kategori Y (Klasifikasi nearest neighbor berdasarkan nilai k)
  • Dengan menggunakan kategori nearest neighbor yang paling mayoritas maka dapat dipredisikan kategori objek .

Contoh Soal

Terdapat beberapa data yang berasal dari survey questioner tentang klasifikasi kualitas kertas tissue apakah baik atau jelek, dengan objek training menggunakan dua attribute yaitu daya tahan terhadap asam dan kekuatan. Dengan menggunakan K = 4.

(k = 4)

Akan diproduksi kembali kertas tisu dengan attribute X1=7 dan X2=4 tanpa harus mengeluarkan biaya untuk melakukan survey, maka dapat diklasifikasikan kertas tise tersebut termasuk yang baik atau jelek.

  1. Ada 4 data yang paling dekat yaitu (8,4) , (6,5) , (5,6), dan (7,7). Kemudian hitung jumal kelas untuk ke empat data tersebut.

2. Sehingga diperoleh baik = 3 dan jelek = 1. Dengan voting maka diperoleh bahwa tissue dengan daya tahan 7 dan Kekuatan 4

3. Termasuk Kategori Baik.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *