Blog Nico Ivananda: Pengantar Komputasi Modern : Big Data

Algoritma Big Data

Salah satu algoritma yang digunakan pada Big Data yaitu algoritma K-Means. Algoritma K-Means memiliki cara bekerja dengan cara clustering. Clustering adalah mengelompokkan data menjadi beberapa kelompok dan membentuk cluster. Clustering atau unsupervised learning artinya pengelompokan data tanpa campur tangan user atau programmer. Setiap data yang masuk akan dikelompokkan sesuai dengan kecocokan dengan data-data yang telah masuk sebelumnya. Tanpa campur tangan berarti dilakukannya proses pendefinisian oleh programmer, lalu dijalankan tanpa pengawasan penuh programmer. Algoritma K-Means mendefinisikan fitur yang nantinya dijadikan pedoman untuk mengelompokan data. Algoritma ini mengelompokan data secara otomatis, tidak seperti classification yang masih manual. Algoritma K-Means akan mengelompokkan data berdasarkan kemiripan dari fitur-nya. Ciri khas dari algoritma K-Means yaitu mendefinisikan diawal berapa jumlah cluster yang akan didapatkan, berapa jumlah iterasi untuk algoritma ini dan pendefinisikan fitur-fiturnya.

Prinsip Umum Dari Algoritma K-Means Clustering

Memilih data secara random dengan jumlah sama dengan jumlah cluster yang diinginkan.
Mengelompokan sisa data (dataset dikurangi dari data yang sebelumnya diambil secara random) berdasarkan kedekatannya dengan data yang telah dipilih secara random sebelumnya. Tujuan langkah ini yaitu semua data terbagi menjadi kelompok atau cluster sesuai dengan jumlah cluster yang diinginkan.
Mencari rata-rata dari seluruh data anggota cluster tersebut disetiap cluster. Hasil rata-rata ini selanjutnya akan menjadi pusat cluster berikutnya menggantikan sebelumnya. Hasilnya nanti, ada cluster yang pusatnya berubah dan ada pula yang tidak. Biasanya pada saat iterasi awal, cluster akan berubah pusatnya.
Muncul pusat cluster yang baru, kemudian kelompokkan lagi semua data yang dimiliki berdasarkan pusat cluster yang baru. Sama seperti pada langkah kedua.
Mengulangi langkah 3 dan langkah 4 sampai sejumlah iterasi yang sebelumnya telah didefinisikan.
Setelah iterasi berakhir, nantinya akan didapatkan cluster yang mewakili kelompok dari semua data yang dimiliki.

Studi Kasus Big Data

Perusahaan keuangan dapat menggunakan big data untuk menganalisa dan mengidentifikasi untuk mencegah terjadinya fraud pada untuk mengurangi resiko kerugian.
Pemerintah dapat menggunakan big data untuk menangkal dan mencegah serangan cyber dunia maya.
Industri kesehatan dapat memanfaatkan analisis big data untuk pengelolaan sumber daya rumah sakit untuk pelayanan kepada pasien yang lebih baik.
Perusahaan telekomunikasi dapat memanfaatkan analisis big data untuk mendapatkan jaringan komunikasi yang lebih optimal dan mencegah terjadinya kecurangan pada pelanggan.
Marketing dapat menggunakan big data untuk menganalisa tingkat kepuasan konsumen terhadap produk yang dijualnya.
Perusahaan asuransi dapat memanfaatkan analisis big data untuk memilah kategori pengajuan asuransi dan memvalidasi klaim asuransi untuk menghindari penipuan.
Perusahaan ritel dapat memanfaatkan media sosial yang telah terintegrasi dengan big data dan nantinya diproses lagi menjadi data untuk mengetahui persepsi pelanggan, perilaku pelanggan dan tingkat kepuasan pelanggan.