Cuprins:
Definiție - Ce înseamnă Tokenization?
Tokenizarea este actul de a rupe o secvență de șiruri în bucăți precum cuvinte, cuvinte cheie, fraze, simboluri și alte elemente numite jetoane. Jetoanele pot fi cuvinte individuale, fraze sau chiar propoziții întregi. În procesul de tokenizare, unele caractere precum semnele de punctuație sunt aruncate. Jetoanele devin elemente de intrare pentru un alt proces, cum ar fi analizarea și extragerea textului.
Tokenizarea este utilizată în informatică, unde joacă un rol important în procesul de analiză lexicală.
Techopedia explică Tokenizarea
Tokenizarea se bazează mai ales pe euristică simplă pentru a separa jetoanele urmând câțiva pași:
- Jetoanele sau cuvintele sunt separate de spațiul alb, semne de punctuație sau pauze de linie
- Spațiul alb sau semnele de punctuație pot fi sau nu incluse în funcție de necesitate
- Toate caracterele din șiruri contigue fac parte din jeton. Jetoanele pot fi alcătuite doar din toate caracterele alfa, caractere alfanumerice sau numai caractere numerice.
Jetoanele în sine pot fi, de asemenea, separatoare. De exemplu, în majoritatea limbajelor de programare, identificatorii pot fi plasați împreună cu operatori aritmetici fără spații albe. Deși se pare că acest lucru ar apărea ca un singur cuvânt sau jeton, gramatica limbii consideră de fapt operatorul matematic (un jeton) ca un separator, astfel încât chiar și atunci când mai multe jetoane sunt grupate, ele pot fi încă separate prin intermediul matematicii operator.
