Mengenal Clustering : Sejarah, Pengertian, Jenis, dan Cara Kerjanya

31 August, 2022 | Pojiah

Sejarah

Pada awalnya Algoritma Clustering atau rata-rata ditemukan oleh beberapa orang seperti Lloyd (1957-1982), Forgey (1965), Friedman dan Rubin (1967), serta McQueen (1967). Ide pengklasteran pertama kali ditemukan oleh Lloyd pada tahun 1957. Namun hal tersebut baru dipublikasikan pada tahun 1982. Pada tahun 1965, Forgey juga memublikasikan teknik yang sama sehingga terkadang dikenal sebagai Lloyd–Forgy pada beberapa sumber. Selain itu di tengah pesatnya perkembangan teknologi kecerdasan buatan itu terdiri dari beberapa cabang, salah satunya adalah machine learning atau pembelajaran mesin. Teknologi machine learning merupakan salah satu cabang dari AI yang sangat menarik perhatian, karena machine learning merupakan mesin yang bisa belajar layaknya manusia. Machine learning ini merupakan teknologi yang mampu mempelajari data yang ada dan melakukan tugas-tugas tertentu sesuai dengan apa yang dipelajari.

Pengertian Clustering

Clustering adalah cara untuk mengelompokkan data yang perlu di pahami, data mining merupakan bagian dari clustering. Artinya, ia mengekstrak pola yang menarik dari sejumlah cluster data yang besar. Clustering atau pengelompokan biasanya digunakan dalam intelijen bisnis, pengenalan pola gambar, pencarian web, ilmu kehidupan, dan keamanan. Clustering adalah proses pengelompokan data menjadi beberapa jumlah cluster sehingga data dalam cluster tersebut memiliki kemiripan yang paling besar.

Ini juga memungkinkan untuk menentukan dan mengambil data antara cluster berbeda yang menunjukkan kesamaan minimal. Oleh karena itu objek-objek dalam suatu klaster memiliki sifat yang sama dan berbeda dengan klaster lainnya seperti disebutkan sebelumnya clustering adalah metode pengelompokan data. Lebih khususnya lagi, clustering adalah metode pengelompokan data dan digunakan untuk menentukan dalam mengidentifikasi kelompok data cluster yang dihasilkan dari pengelompokan item-item kecil berdasarkan kesamaannya satu sama lain.

Karena kesamaan yang mendasari pengelompokan tidak universal ukuran kesamaan harus dijelaskan terlebih dahulu oleh peneliti atau analis. Oleh karena itu, clustering adalah proses pengelompokan data menjadi beberapa cluster atau kelompok untuk menentukan dalam memaksimalkan kesamaan data dalam sebuah cluster dan meminimalkan kesamaan data antara cluster yang berbeda.
Clustering adalah metode pengelompokan data point yang biasa digunakan sebagai metode data mining atau penambangan data. Clustering adalah proses membagi sekumpulan objek data menjadi subset yang disebut cluster.

Oleh karena itu teknik clustering ini sangat membantu dalam menemukan cluster yang tidak diketahui pada data point. Seperti disebutkan sebelumnya, pengelompokan adalah teknik yang umum digunakan dalam intelijen bisnis, pengenalan pola gambar, pencarian web, ilmu kehidupan, dan keamanan. Dalam intelijen bisnis, pengelompokan memungkinkan banyak pelanggan untuk menentukan dan dikelompokkan ke dalam beberapa grup.

Misalnya kelompokkan pelanggan ke dalam beberapa kelompok dengan karakteristik umum yang kuat. Clustering juga dikenal sebagai segmentasi data point karena membagi beberapa kumpulan data point menjadi beberapa kelompok berdasarkan kesamaan.

Pendekatan Metode Clustering

Beberapa pendekatan digunakan untuk mengembangkan teknik clustering dua pendekatan utama adalah partisi dan pengelompokan hierarki.

1. Pengelompokan berbasis partisi
Pengelompokan menggunakan pendekatan partisi hierarki, atau sering disebut sebagai pengelompokan berbasis partisi, mengelompokkan data dengan menyortir data yang dianalisis ke dalam beberapa cluster, yang ada hierarki data tidak dipertimbangkan.
Pada metode split clustering, setiap cluster memiliki titik pusat (center of gravity), dan metode ini secara umum ditujukan untuk menentukan dalam meminimalkan jarak (dissimilarity) dari semua data point ke pusat setiap cluster.

Contoh teknik split clustering:
Algoritma K-Means, Fuzzy K-Means, dan mixed modeling.
Metode algoritma K-Means adalah metode pengelompokan yang paling sederhana dan paling umum, hal ini karena algoritma K-Means dapat mengelompokkan data dalam jumlah cluster besar dalam waktu komputasi yang cepat dan efisien.

2. Hierarchical clustering
Clustering dengan menggunakan pendekatan hirarki atau sering disebut dengan hierarchical clustering, membuat hierarki dalam bentuk diagram dimana data yang sejenis ditempatkan pada hierarki yang berdekatan dan bukan pada hierarki yang terpisah. Pengelompokan hierarki mengelompokkan data dalam grafik hierarki dengan mengelompokkan dua grup terdekat bersama-sama setiap kali seluruh kumpulan data diulang atau dibagi menjadi beberapa cluster.

Langkah untuk melakukan hirarki clustering terlebih dahulu mengidentifikasi elemen-elemen yang berdekatan, kemudian menggabungkan elemen-elemen tersebut menjadi satu cluster, kemudian menghitung jarak antar cluster, dan akhirnya semua terhubung, ulangi dari awal sampai selesai. Contoh teknik pengelompokan hierarki termasuk tautan tunggal, tautan penuh, tautan rata-rata, dan tautan kelompok rata-rata

Jenis – jenis metode clustering

Ada beberapa jenis clustering yang tersedia yaitu :

1. Centroid-based clustering
Clustering berbasis Centroid adalah metode pengelompokan data ke dalam cluster non-hierarki. Cluster jenis ini cenderung lebih efisien, tetapi sensitif terhadap outlier. Tipe ini juga merupakan salah satu algoritma iteratif untuk clustering, dimana cluster terbentuk dari jarak minimum antar titik data ke pusat cluster.

Pusat cluster, atau yang disebut dengan centroid, dibentuk dengan beberapa pertimbangan untuk menentukan meminimalkan jarak titik data dari pusat. Algoritma K-means clustering adalah salah satu algoritma clustering berbasis centroid yang paling populer.

2. Density-based Clustering
Pengelompokan berbasis kepadatan menggabungkan wilayah dengan kepadatan yang sama menjadi sebuah grup. Jenis ini menyebabkan masalah dengan data berdimensi tinggi dan berkepadatan tinggi. Metode ini membuat cluster berdasarkan kepadatan setiap titik data.

Daerah yang kemudian padat karena banyaknya titik data di daerah tersebut dianggap kelompok atau cluster. Area dengan titik data yang sangat sedikit, di sisi lain, dianggap sebagai noise atau outlier. Berikut ini adalah contoh algoritma clustering berbasis centroid
DBSCAN (Pengelompokan spasial berbasis kepadatan dari aplikasi bising)
OPTICS (order point untuk mengidentifikasi struktur clustering)
HDBSCAN (Pengelompokan Spasial Berbasis Kepadatan Hierarki untuk Aplikasi Bising)

3.Distribution-based Clustering
Jenis pengelompokan ini mengasumsikan bahwa data terdiri dari distribusi yang mirip dengan distribusi Gaussian. Semakin jauh jarak dari pusat distribusi, semakin kecil kemungkinan titik akan berada di grup distribusi.

Tipe ini cocok untuk menentukan data sintetik dan cluster dengan berbagai ukuran. Maksimalisasi nilai yang diharapkan merupakan salah satu algoritma yang mengimplementasikan pengelompokan berbasis distribusi atau connection-based.

4. Hierarchical Clustering atau Connectivity based Cluster
Jenis implementasi ini mirip dengan clustering berbasis centroid, yang pada dasarnya mendefinisikan sebuah cluster berdasarkan jarak terpendek antara titik data, kemudian metode ini berfungsi untuk memahami bahwa titik data yang lebih dekat berperilaku sama dengan titik data yang lebih jauh. Pengelompokan titik data direpresentasikan menggunakan dendogram, Ada beberapa jenis hubungan dendogram.

Single linkage: Dalam single linkage, jarak antara dua cluster adalah jarak terpendek antara titik data di dua cluster.

Full Link: Dengan Full Link, jarak antara dua cluster adalah jarak terjauh antara titik data di kedua cluster.

Average Link: Untuk link rata-rata, jarak antara dua cluster adalah jarak rata-rata dari setiap titik data dalam satu cluster ke setiap titik data di cluster lain.

Gunakan empat teknik pengelompokan untuk menganalisis data Anda, membuat model, dan meningkatkan penjualan perusahaan.

Syarat Clustering

1. Teknik clustering harus mampu menangani data dalam jumlah besar
Saat ini, sejumlah besar data sangat umum digunakan di berbagai bidang seperti database. Tidak hanya berisi ratusan objek, tetapi database besar berisi jutaan objek.

2. Kemampuan untuk menganalisis data dalam format yang berbeda
Algoritma clustering harus dapat diimplementasikan dalam berbagai format data, seperti data nominal, data ordinal, atau data gabungan.

3. Kelompok bentuk tak terduga ditemukan
Banyak algoritma pengelompokan menggunakan metode Euclidean atau Manhattan, dan hasilnya dibulatkan, Meskipun hasil clustering mungkin aneh dan tidak seimbang. Oleh karena itu, diperlukan kemampuan untuk menganalisis cluster dalam bentuk apapun dengan algoritma clustering.

4. Kemampuan untuk menangani kebisingan
Data tidak selalu dalam kondisi baik, data dapat rusak, disalahpahami, atau hilang. Karena sistem ini diperlukan algoritma clustering untuk menangani data yang rusak.

5. Sensitivitas terhadap perubahan input
Memodifikasi atau menambahkan data pada input dapat mengubah cluster yang ada, dan menggunakan algoritma clustering dengan tingkat sensitivitas yang rendah dapat menghasilkan perubahan yang signifikan.

6. melakukan pengelompokan data berdimensi tinggi
Dataset dapat berisi banyak dimensi atau atribut, hal ini membutuhkan algoritma clustering yang dapat menangani data non-dimensi kecil. Interpretasi dan penggunaan Hasil pengelompokan harus dapat diinterpretasikan dan tersedia.

Variasi Metode Clustering

- Metode Quality Threshold Clustering
- Hash yang sadar akan lokalitas
- Kunci algoritma
- Clustering basis istilah yang hierarki dan sering
- Clustering pohon akhiran
- Clustering jalur tunggal
- Clustering tetangga
- Clustering urutan
- Clustering spektrum
- Clustering di pohon yang sering

Analisis klaster kelas laten, juga dikenal sebagai analisis profil laten, juga dikenal sebagai model campuran variabel kontinu Analisis kelas laten, juga dikenal sebagai model campuran variabel kategoris.

Hal-hal Terkait Dengan Clustering

- Analisis faktor
- Dekomposisi nilai tunggal
- Nilai eigen dan vektor eigen
- Skala kesamaan
- Diskritisasi fungsi
- Pilihan fitur
- Penskalaan fungsi
- Metode indeks pencarian

Tidak semua kondisi memungkinkan penerapan algoritma clustering ini mencapai hasil yang optimal. Ada beberapa kondisi dimana metode clustering ini dapat diterapkan yaitu :

a. Ketika analisis dimulai dengan kumpulan data besar yang tidak terstruktur
Kondisi ini merupakan kondisi yang paling tepat untuk menggunakan algoritma clustering. Ini karena algoritma clustering dapat mengambil sejumlah besar record tanpa instruksi dan mengubahnya menjadi record yang berguna. Sama Jika Anda tidak tahu berapa banyak kelas yang ingin Anda bagi.

b. Algoritma pengelompokan
adalah salah satu langkah yang baik untuk memulai persiapan data, karena dapat menjawab pertanyaan bisnis yang telah ditentukan sebelumnya terkait dengan kumpulan data.

c. Saat mencari anomali di dataset
Jika Anda ingin menemukan anomali pada dataset Anda menggunakan algoritma clustering adalah pilihan yang tepat. Algoritma ini dapat mengidentifikasi anomali data dan berguna dalam mengoptimalkan hasil yang diperoleh dalam jangka panjang.

Di mana metode clustering ini bisa diterapkan Ketiga kondisi ini adalah kondisi yang paling tepat untuk menggunakan algoritma pengelompokan.Tetapi dalam banyak kasus mereka bukan jawaban untuk masalah yang dihadapi algoritma pengelompokan, kondisi ini terjadi ketika diperlukan analisis data yang lebih detail.

Setiap kelompok yang dipisahkan menggunakan algoritma pengelompokan tidak selalu terkait dengan data itu sendiri, tetapi mungkin terkait dengan titik lain, sehingga sangat tergantung pada jumlah cluster kelompok yang ditentukan. Hasil yang berbeda dapat diperoleh, oleh karena itu disarankan untuk melakukan analisis yang lebih intensif setelah menggunakan algoritma clustering ini.