Je možné použiť k-means na kategorizáciu textových údajov?

Obsah:

Je možné použiť k-means na kategorizáciu textových údajov?
Je možné použiť k-means na kategorizáciu textových údajov?

Video: Je možné použiť k-means na kategorizáciu textových údajov?

Video: Je možné použiť k-means na kategorizáciu textových údajov?
Video: Перепишите эти слова от руки и всегда носите с собой, надежная защита от недоброжелателей и врагов 2024, November
Anonim

K-means je klasický algoritmus na klastrovanie dát pri dolovaní textu, ale zriedka sa používa na výber funkcií. … Používame metódu k-means na zachytenie niekoľkých ťažísk klastra pre každú triedu a potom vyberieme slová s vysokou frekvenciou v ťažiskách ako textové prvky na kategorizáciu.

Funguje k-means s kategorickými údajmi?

Algoritmus k-Means sa nedá použiť na kategorické údaje, pretože kategorické premenné sú diskrétne a nemajú prirodzený pôvod. Takže počítanie euklidovskej vzdialenosti pre vesmír nemá zmysel.

Dajú sa k-means použiť na zoskupovanie textu?

K-means clustering je typ metódy učenia bez dozoru, ktorá sa používa, keď nemáme označené údaje, ako v našom prípade, máme neoznačené údaje (tzn. bez definovaných kategórií alebo skupín). Cieľom tohto algoritmu je nájsť skupiny v dátach, pričom č. skupín predstavuje premenná K.

Môžeme použiť k-means na klasifikáciu?

KMeans je zhlukovací algoritmus, ktorý rozdeľuje pozorovania do k zhlukov. Keďže môžeme diktovať počet zhlukov, dá sa ľahko použiť pri klasifikácii, kde rozdeľujeme údaje do zhlukov, ktoré môžu byť rovnaké alebo väčšie ako počet tried.

Aký klastrovací algoritmus je najlepší pre textové dáta?

na zoskupovanie textových vektorov môžete použiť hierarchické algoritmy zoskupovania, ako je HDBSCAN, ktoré zohľadňujú aj hustotu. v HDBSCAN nepotrebujete priraďovať počet klastrov ako v k-means a je robustnejší hlavne v zašumených dátach.

Odporúča: