V Pythone tokenizácia v podstate znamená rozdelenie väčšieho množstva textu na menšie riadky, slová alebo dokonca vytváranie slov pre neanglický jazyk.
Ako používate tokenizáciu v Pythone?
Na dosiahnutie tohto cieľa sa používa súprava nástrojov prirodzeného jazyka (NLTK). Nainštalujte NLTK pred pokračovaním v programe python na tokenizáciu slov. Ďalej použijeme metódu word_tokenize na rozdelenie odseku na jednotlivé slová. Keď spustíme vyššie uvedený kód, vytvorí sa nasledujúci výsledok.
Čo robí NLTK Tokenize?
NLTK obsahuje modul s názvom tokenize, ktorý sa ďalej delí na dve podkategórie: Word tokenize: Metódu word_tokenize používame na rozdelenie vety na tokeny alebo slová. Tokenizácia viet: Metódu sent_tokenize používame na rozdelenie dokumentu alebo odseku do viet.
Čo znamená tokenizácia?
Tokenizácia je proces premeny citlivých údajov na necitlivé údaje nazývané „tokeny“, ktoré možno použiť v databáze alebo internom systéme bez toho, aby sa to týkalo rozsahu. Tokenizáciu možno použiť na zabezpečenie citlivých údajov nahradením pôvodných údajov nesúvisiacou hodnotou rovnakej dĺžky a formátu.
Čo znamená tokenizácia v programovaní?
Tokenizácia je akt rozdelenia postupnosti reťazcov na kúsky, ako sú slová, kľúčové slová, frázy, symboly a ďalšie prvky nazývané tokeny.