Algoritma Big Data
Salah satu algoritma yang
digunakan pada Big Data yaitu algoritma K-Means. Algoritma K-Means memiliki
cara bekerja dengan cara clustering. Clustering adalah mengelompokkan data
menjadi beberapa kelompok dan membentuk cluster. Clustering atau unsupervised
learning artinya pengelompokan data tanpa campur tangan user atau programmer.
Setiap data yang masuk akan dikelompokkan sesuai dengan kecocokan dengan
data-data yang telah masuk sebelumnya. Tanpa campur tangan berarti dilakukannya
proses pendefinisian oleh programmer, lalu dijalankan tanpa pengawasan penuh
programmer. Algoritma K-Means mendefinisikan fitur yang nantinya dijadikan pedoman
untuk mengelompokan data. Algoritma ini mengelompokan data secara otomatis,
tidak seperti classification yang masih manual. Algoritma K-Means akan mengelompokkan
data berdasarkan kemiripan dari fitur-nya. Ciri khas dari algoritma K-Means yaitu
mendefinisikan diawal berapa jumlah cluster yang akan didapatkan, berapa jumlah
iterasi untuk algoritma ini dan pendefinisikan fitur-fiturnya.
Prinsip Umum Dari Algoritma
K-Means Clustering
- Memilih data secara random dengan jumlah sama dengan jumlah cluster yang diinginkan.
- Mengelompokan sisa data (dataset dikurangi dari data yang sebelumnya diambil secara random) berdasarkan kedekatannya dengan data yang telah dipilih secara random sebelumnya. Tujuan langkah ini yaitu semua data terbagi menjadi kelompok atau cluster sesuai dengan jumlah cluster yang diinginkan.
- Mencari rata-rata dari seluruh data anggota cluster tersebut disetiap cluster. Hasil rata-rata ini selanjutnya akan menjadi pusat cluster berikutnya menggantikan sebelumnya. Hasilnya nanti, ada cluster yang pusatnya berubah dan ada pula yang tidak. Biasanya pada saat iterasi awal, cluster akan berubah pusatnya.
- Muncul pusat cluster yang baru, kemudian kelompokkan lagi semua data yang dimiliki berdasarkan pusat cluster yang baru. Sama seperti pada langkah kedua.
- Mengulangi langkah 3 dan langkah 4 sampai sejumlah iterasi yang sebelumnya telah didefinisikan.
- Setelah iterasi berakhir, nantinya akan didapatkan cluster yang mewakili kelompok dari semua data yang dimiliki.
Studi Kasus Big Data
- Perusahaan keuangan dapat menggunakan big data untuk menganalisa dan mengidentifikasi untuk mencegah terjadinya fraud pada untuk mengurangi resiko kerugian.
- Pemerintah dapat menggunakan big data untuk menangkal dan mencegah serangan cyber dunia maya.
- Industri kesehatan dapat memanfaatkan analisis big data untuk pengelolaan sumber daya rumah sakit untuk pelayanan kepada pasien yang lebih baik.
- Perusahaan telekomunikasi dapat memanfaatkan analisis big data untuk mendapatkan jaringan komunikasi yang lebih optimal dan mencegah terjadinya kecurangan pada pelanggan.
- Marketing dapat menggunakan big data untuk menganalisa tingkat kepuasan konsumen terhadap produk yang dijualnya.
- Perusahaan asuransi dapat memanfaatkan analisis big data untuk memilah kategori pengajuan asuransi dan memvalidasi klaim asuransi untuk menghindari penipuan.
- Perusahaan ritel dapat memanfaatkan media sosial yang telah terintegrasi dengan big data dan nantinya diproses lagi menjadi data untuk mengetahui persepsi pelanggan, perilaku pelanggan dan tingkat kepuasan pelanggan.
Referensi:
http://ilhammaulanasuryani.blogspot.com/2016/11/implementasi-big-data.html