Extracția datelor cu gruparea K-urilor

K- înseamnă algoritmul de grupare este un instrument de extragere a datelor și de învățare a mașinilor folosit pentru a grupa observațiile în grupuri de observații conexe, fără cunoașterea prealabilă a acestor relații. Prin eșantionare, algoritmul încearcă să afișeze în ce categorie sau grup aparțin datele, numărul de clustere fiind definit de valoarea k.

K- înseamnă că algoritmul este una dintre cele mai simple tehnici de grupare și este utilizat în mod obișnuit în imagistica medicală, biometrie și în domenii conexe. Avantajul K- înseamnă că gruparea înseamnă că se vorbește despre datele dvs. (folosind formularul nesupravegheat), mai degrabă decât să instruiți algoritmul cu privire la date la început (folosind formularul supravegheat al algoritmului).

Este uneori denumit Algoritmul lui Lloyd, în special în cercurile de informatică, deoarece algoritmul standard a fost inițial propus de Stuart Lloyd în 1957. Termenul "k-means" a fost inventat în 1967 de James McQueen.

Cum funcționează algoritmul K-Means

K- înseamnă algoritmul este un algoritm evolutiv care își câștigă numele din metoda sa de operare. Algoritmul cuprinde observațiile k grupuri, unde k este furnizat ca parametru de intrare. Apoi atribuie fiecare observație clusterelor pe baza apropierii observării față de media clusterului. Media medie a grupului este apoi recuperată și procesul începe din nou. Iată cum funcționează algoritmul:

Algoritmul selectează în mod arbitrar k puncte ca centre de cluster inițiale (mijloace).
Fiecare punct din setul de date este alocat clusterului închis, pe baza distanței euclidane dintre fiecare punct și fiecare centru de cluster.
Fiecare centru de cluster este recalculat ca medie a punctelor din acel cluster.
Pașii 2 și 3 se repetă până când grupurile converg. Convergența poate fi definită în mod diferit în funcție de implementare, dar în mod normal înseamnă că niciunul dintre observații nu modifică clusteri atunci când se repetă etapele 2 și 3 sau că modificările nu fac o diferență semnificativă în definirea clusterelor.

Alegerea numărului de clustere

Unul dintre principalele dezavantaje pentru K- înseamnă clustering este faptul că trebuie să specificați numărul de clustere ca o intrare în algoritm. Așa cum a fost proiectat, algoritmul nu este capabil să determine numărul corespunzător de clustere și depinde de utilizator pentru a identifica acest lucru în avans.

De exemplu, dacă ați avea un grup de persoane care urmează să fie grupate pe baza identității sexuale binare ca bărbat sau femeie, K- înseamnă algoritmul care utilizează intrarea k = 3 ar forța oamenii în trei clustere atunci când doar două, sau o contribuție de k = 2, ar asigura o adaptare mai naturală.

În mod similar, dacă un grup de indivizi au fost grupați cu ușurință pe baza stării de origine și ați sunat K- înseamnă algoritmul cu intrarea k = 20, rezultatele ar putea fi prea generalizate pentru a fi eficiente.

Din acest motiv, este adesea o idee bună să experimentați diferite valori k pentru a identifica valoarea care vă corespunde cel mai bine datelor. De asemenea, vă recomandăm să explorați utilizarea altor algoritmi de extragere a datelor în căutarea cunoștințelor învățate de mașină.