Algoritmus k-Means sa nedá použiť na kategorické údaje, pretože kategorické premenné sú diskrétne a nemajú prirodzený pôvod. Takže počítanie euklidovskej vzdialenosti pre vesmír nemá zmysel.
Môžeme použiť klastrovanie pre kategorické údaje?
Kategorické údaje boli prevedené na číselné priradením hodnoty poradia. Je to tak, že kategorický súbor údajov môže byť zhlukovaný ako množiny číselných údajov.. Zistilo sa, že implementácia tejto logiky, k-priemer, poskytuje rovnaký výkon ako v numerických súboroch údajov.
Je možné použiť strednú hodnotu pre kategorické premenné?
Neexistuje spôsob, ako nájsť priemer z týchto údajov, pretože neexistuje „priemerná“farba očí. Môžete nájsť proporcie, ale nie priemer. Dúfam, že to pomôže!
Čo by sa malo použiť, keď sú údaje kategorické?
Kategorické údaje sa analyzujú pomocou rozdelenia režimu a mediánu, kde sa nominálne údaje analyzujú s režimom, zatiaľ čo ordinálne údaje používajú oboje. V niektorých prípadoch môžu byť ordinálne údaje analyzované aj pomocou jednorozmerných štatistík, bivariačných štatistík, regresných aplikácií, lineárnych trendov a klasifikačných metód.
Čo je zoskupovanie s kategorickými atribútmi?
Kategorické zhlukovanie údajov sa vzťahuje na prípad, keď údajové objekty sú definované cez kategorické atribúty … To znamená, že pre kategorické hodnoty neexistuje jediné usporiadanie alebo funkcia vlastnej vzdialenosti a neexistuje žiadne mapovanie z kategorických na číselné hodnoty, ktoré by bolo sémanticky rozumné.