Penerapan Data Mining dalam Memprediksi Pembelian cat


STMIK STIKOM Bali, 9 – 10 Oktober 2015
Penerapan Data Mining dalam Memprediksi Pembelian cat

Fitriana Harahap

STMIK POTENSI UTAMA
Jl. KL. Yos Sudarso KM 6,5 No 3 A Tj. Mulia Medan Email : fitrianaharahap1@gmail.com


Abstrak
Untuk memudahkan dalam pengambilan keputusan dalam proses pembelian cat di Departement penjualan Home Smart Medan yang selama ini pengambilan keputusan seorang manager penjualan dalam mengambil keputusan dengan melihat seberapa dekat hubungan supplier dan seberapa banyak dana sponsor yang diberikan kepada perusahaan. Selain harga, type merek juga masih kalah saing dengan perusahaan lain. Pembelian cat yang kurang efektif, menyebabkan produk khususnya cat pada perusahaan ini kurang diminati oleh customer . Dengan menerapkan teknik klasifikasi data mining pada pembelian cat yang efektif Pada Departement Penjualan Home Smart, diharapkan nantinya dapat menghasilkan suatu pengetahuan yang dapat digunakan dalam pengambilan keputusan dalam  melakukan pembelian cat yang efektif. Algoritma C4.5 adalah algoritma klasifikasi data bertipe pohon keputusan. Pohon keputusan Algoritma C4.5 dibangun dengan beberapa tahap yang meliputi pemilihan atribut sebagai akar, membuat cabang untuk tiap-tiap nilai dan membagi kasus dalam cabang. Tahapan- tahapan ini akan diulangi untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama. Dari penyelesaian pohon keputusan maka akan didapatkan beberapa rule. Dalam hal ini penulis mengklasifikasikan pembelian cat berdasarkan penjualan pada Departement Penjualan Home Smart. Penerapan Algoritma C4.5 ini dapat membantu Departement Penjuan Home Smart dalam menentukan pembelian cat dari Suplier.

Kata kunci: Data Mining, Pembelian cat, Decision Tree, Algoritma C4.5


1.  Pendahuluan

Dalam ekonomi dan bisnis masih banyak perusahaan-perusahaan yang menggunakan selembar kertas ataupun hanya menggunakan aplikasi Microsoft Excel untuk mengolah data perusahaan. Seperti halnya pada Departement Penjualan Home Smart Medan. Meskipun pemanfaatan teknologi komputerisasi sudah terealisasikan, namun tidak begitu dalam mengambil keputusan untuk pembelian cat. Pengambilan keputusan seorang manager purchasing dalam mengambil keputusan apakah produk cat yang ditawarkan oleh perusahaan cat yaitu dengan melihat seberapa dekat hubungan supplier dan seberapa banyak dana sponsor yang diberikan kepada perusahaan. Sehingga terkadang tidak dapat bersaing dengan perusahaan lain. Selain harga, type merek juga masih kalah saing dengan perusahaan lain. Pembelian cat yang kurang efektif, menyebabkan produk khususnya cat pada perusahaan ini kurang diminati oleh customer.

Data mining adalah proses yang mengunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar. Salah satu teknik yang ada pada data mining adalah klasifikasi [1][2].

Dalam penelitian sebelumnya dengan judul “ Perbandingan kinerja pohon keputusan ID3 dan C4.5 dalam identifikasi kelayakan kredit sepeda motor”. Penelitian tersebut dilakukan untuk mengidentifikasi kelayakan kredit menggunakan algoritma pohon keputusan ID3 dan C4.5 serta untuk mengukur kinerja algoritma ID3 dan C4.5 dari sisi keakuratan hasil prediksi. Pengukuran kinerja yang dilakukan menggunakan sekelompok data uji untuk mengetahui persentase precision, recall dan accurancy. Hasil akhir dari penelitian ini menunjukkan bahwa algoritma C4.5 memiliki tingkat akurasi yang lebih tinggi daripada algoritma ID3[3].



Yi Jiang et al melakukan penilaian terhadap kredit debitur. Penelitiannya menyatakan bahwaC4.5 adalah algoritma pembelajaran yang mengadopsi strategi pencarian lokal, dan dapatmemperoleh aturan keputusan terbaik[5].

2.  Metode Penelitian

Metode penelitian dilakukan dengan studi literatur terhadap sumber-sumber yang relevan, analisis pengetahuan terhadap faktor pembelian cat menggunakan algoritma C4.5. Banyak algoritma yang dapat dipakai dalam pembentukan pohon keputusan, antara lain ID3, CART, dan C4.5 . Algoritma C4.5 merupakan pengembangan dari algoritma ID3 [4].
Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang memprediksikan aturan. Aturan dapat dengan mudah dipahami dengan alami. Dan mereka juga dapat diekspresikan dalam bentuk bahasa basis data seperti Structured Query Language untuk mencari record pada kategori tertentu [2].
Proses pada pohon keputusan adalah mengubah bentuk data (tabel) menjadi model pohon, mengubah model pohon menjadi rule dan menyederhanakan rule. Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut [4] :
1.                   Pilih atribut sebagai akar
2.                   Buat cabang untuk tiap nilai
3.                   Bagi kasus dalam cabang
4.                   Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama.
Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk menghitung gain digunakan rumus di bawah ini :

 (1)

Di mana :
S = Himpunan kasus
A = Atribut
n = Jumlah partisi atribut A
|Si|= Jumlah kasus pada partisi ke-i
|S|= Jumlah kasus dalam S
Sementara itu, perhitungan nilai entropy adalah seperti persamaan 2 di bawah ini :

(2)

Di mana :

S = Himpunan kasus n = Jumlah partisi S A = Fitur Pi = Proporsi dari |Si| terhadap S 

Analisa Data

Data dalam pohon keputusan biasanya dinyatakan dalam bentuk tabel dengan atribut dan record. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan pohon, salah satu atribut merupakan atribut yang menyatakan data solusi per item data yang disebut target atribut. Atribut memiliki nilai-nilai yang dinamakan dengan instance.

Pemilihan Variabel.

 Tabel 1. Data Hasil Pra-Proses
No
Kualitas
Animo
Harga
Kompetisi
Beli
1
Medium
Rendah
Mahal
Sedang
Ya
2
Medium
Sedang
Mahal
Sedang
Ya
3
Super
Tinggi
Mahal
Rendah
Ya
4
Standar
Sedang
Mahal
Sedang
Ya
5
Standar
Rendah
Terjangkau
Sedang
Ya
6
Standar
Rendah
Terjangkau
Tinggi
Ya
7
Standar
Rendah
Mahal
Sedang
Tidak
8
Super
Rendah
Mahal
Sedang
Ya
9
Super
Tinggi
Normal
Sedang
Ya
10
Super
Rendah
Terjangkau
Sedang
Ya
11
Medium
Rendah
Terjangkau
Sedang
Tidak
12
Medium
Sedang
Terjangkau
Sedang
Tidak
13
Standar
Rendah
Mahal
Rendah
Tidak
14
Standar
Sedang
Mahal
Rendah
Tidak
15
Super
Rendah
Terjangkau
Rendah
Tidak
16
Super
Sedang
Terjangkau
Rendah
Tidak
17
Super
Rendah
Mahal
Sedang
Ya
18
Super
Sedang
Mahal
Sedang
Ya
19
Medium
Tinggi
Mahal
Tinggi
Tidak
20
Medium
Sedang
Normal
Tinggi
Tidak
21
Medium
Rendah
Terjangkau
Tinggi
Tidak

Adapun Pra-Proses yang dilakukan dalam mempertimbangkan faktor diatas diambil berdasarkan sampel data penjualan

1.  Mengelompokkan Kualitas Cat.

Tabel 2. Tabel Klasifikasi Kualitas
Klasifikasi
Kualitas
>10 liter
Super
>20 kg
Medium
5 kg-20kg
Standar
2.       Mengelompokkan Harga Cat.
Pengelompokkan Harga cat diklasifikasikan menjadi tiga kelas yaitu, harga dikatakan Mahal jika harga lebih besar dari Rp. 150.000, harga dikatakan normal jika harga mencapai Rp76.000 sampai dengan 150.000 dan harga dikatakan terjangkau jika harga dibawah dari Rp. 76.000.Berikut harga cat dalam range yang tampak seperti tabel 4.2 dibawah ini :

Tabel 3. Tabel Klasifikasi Harga

Harga
Klasifikasi
>150.000
Mahal
76.000-150.000
Normal
10.000-75.000
Terjangkau
3.       Mengelompokkan Animo
Pengelompokkan Animo diambil berdasarkan hasil penjualan per produk cat yang dipasarkan dengan berbagai cara yang dilakukan pihak produsen cat. Animo dikatakan rendah jika hasil penjualan per produk mencapai Rp.500.000 sampai Rp 5.500.000, Animo dikatakan sedang jika hasil penjualan mencapai 5.600.000 sampai 16.000.000 dan animo dikatakan tinggi jika hasil penjualan lebih besar dari Rp. 16.000.000

Tabel 4. Tabel Klasifikasi Animo


Animo
Klasifikasi
>16.000.000
Tinggi
5.600.000-16.000.000
Sedang
500.000-5.500.000
Rendah
4.     Mengelompokkan Kompetisi
Pengelompokkan kompetisi diambil berdasarkan hasil penjualan produk cat per supplier yang memasarkan produk cat tersebut.Kompetisi diklasifikasikan menjadi tinggi, sedang dan rendah. Kompetisi dikatakan tinggi jika hasil penjualan per sulier mencapai lebih besar dari Rp. 50.000.000, kompetisi dikatakan sedang jika hasil penjualan per supplier mencapai Rp.
41.000.000 sampai Rp. 50.000.000 dan kompetisi dikatakan rendah jika hasil penjualan mencapai Rp. 10.000.000 sampai 40.000.000

Tabel 5. Tabel Klasifikasi Kompetisi


Kompetisi
Klasifikasi
>50.000.000
Tinggi
41.000.000-50.000.000
Sedang
10.000.000-40.000.000
Rendah



Tabel 6. Perhitungan Node 1



Node


Jlm Kasus
Tidak
Ya
Entropy
Gain
1
Total

21
10
11
0.99836


Kualitas





0.11588


Super
8
2
6
0.81128



Medium
7
5
2
0.86312



Standar
6
3
3
1


Animo





0.01809


Tinggi
3
1
2
0.9183



Sedang
7
4
3
0.98523



Rendah
11
5
6
0.99403


Harga





0.04419


Mahal
11
4
7
0.94566



Normal
2
1
1
1



Terjangkau
8
5
3
0.95443


Kompetisi





0.21687


Tinggi
4
3
1
0.81128



Sedang
12
3
9
0.81128



Rendah
5
4
1
0.72193





Dari hasil pada tabel 6 dapat diketahui bahwa atribut dengan Gain tertinggi adalah kompetisi, yaitu sebesar 0.21687. Dengan demikian, kompetisi dapat menjadi node akar. Ada tiga nilai atribut dari kompetisi, yaitu tinggi, sedang dan rendah, sehingga perluh dilakukan perhitungan lagi.


3.  Hasil dan Pembahasan

Pengujian terhadap analisa, sangat penting dilakukan untuk menentukan dan memastikan apakah hasil analisa tersebut telah sesuai dengan keputusan yang diharapkan. Untuk menguji kebenaran dari hasil pengolahan data yang dilakukan secara manual, maka dapat menggunakan salah satu software aplikasi WEKA 3.5.5 knowledge Explorer.

Langkah - langkah Implementasi

Seluruh variabel yang terdiri dari atribut kondisi dan atribut keputusan yang digunakan untuk menentukan pembelian cat disimpan pada Microsoft excel dengan nama file datacat.xls (yang berisi kasus atau kriteria dalam menghasilkan rule). Selanjutnya proses transformation data dimana File datacat.xls kemudian disimpan dengan extension csv, selanjutnya file dibuka dengan notepad atau editor teks lainnya dan data sudah berubah dalam format command separated seperti gambar 4.2. Kemudian data disesuaikan dengan menambahkan informasi awal dan data tersebut sudah dapat digunakan sebagai inputan dalam WEKA 3.5.5.
Selanjutnya Klik buttom Choose, pilih J48 dalam pembentukan pohon keputusan dan klik menu Start . Pada tahap ini proses data mining dilakukan dengan memilih algoritma yang akan dipakai dalam menghasilkan sebuah pohon keputusan, algoritma C4.5.


Gambar 1. Tree View



4.  Simpulan
Berdasarkan hasil penelitian yang penulis lakukan pada Home Smart Medan, maka penulis dapat menarik kesimpulan bahwa pembelian cat dengan menggunakan metode Data Mining khususnya Algoritma C4.5 akan bermanfaat sekali dalam proses pengambilan keputusan dalam pembelian cat pada Home Smart Medan.

1.       Yang menjadi faktor tertinggi yang mempengaruhi pembelian cat pada Home Smart adalah faktor kompetisi supplier dalam memasarkan produknya.
2.       Faktor kedua yang mempengaruhi pembelian cat Home Smart adalah Kualitas cat dan Animo Masyarakat untuk mengetahui dan membeli produk cat yang dipasarkan dengan berbagai cara yang dilakukan pihak produsen cat tersebut.

3.       Faktor Harga tidak mempengaruhi pembelian pada Departement Penjualan Home Smart Medan, karena cat dengan harga mahal ternyata masih diminati oleh pelanggan Home Smart Medan.


 Selanjutnya penulis menyarankan agar dapat membandingkan metode pangambilan keputusan dengan metode Data Mining dengan metode lainnya.

Daftar Pustaka

[1]   Efraim Turban, Jay E. Aronson, Ting Peng Liang, 2005. Decision Support System and Intelligent Systems Edisi 7 Jilid 1, Andi Yogyakarta.

[2]    Kusrini, (2009). Algoritma Data Mining ,Andi Yogyakarta

[3]     Budanis Dwi Meilani Achmad dan Fauzi Slamat, 2012.”Klasifikasi Data Karyawan Untuk Menentukan Jadwal Kerja Menggunakan Metode Decision Tree “,Vol 16, No.1,Mei.

[4]   Muhammad Syahril, 2011 .”Konversi Data Training Tentang Penyakit Hipertensi Menjadi Bentuk Pohon Keputusan dengan Teknik Klasifikasi Menggunakan Tools Rapid Miner 4.1 ,Vol 10, No.2,Mei.

[5]    Jiang,Yi. et al, (2007).”A Bank Customer CreditEvaluation Based on the Decision Tree and theSimulated Annealing Algorithm. Journal of Department of Computer Science XiamenUniversity (IEEE International Co 8-11 July 2008)”.

Komentar

Postingan populer dari blog ini

Manusia Dan Harapan 2