Un jeton est une unité unique de données représentant un élément particulier d’info.
Cet élément est fondamental pour que l’IA comprenne un texteou d’autres données séquencielles.
En NLP, chaque mot est un token poufr reconnaître les patterns ou motifs et les relations entre les tokens, le modèle peut interpréter le sens voulu est produire des réponses appropriées ou d’autres tâches liées au langage.
- Le token de mots L’analyse des sentiments, la classification de texte, la traduction…
- Le token de sous-mots Les langues à la morphologie complexe ou un vocubulaire étendu.
- Tokens de caractères : traites les caractères individuels
La modélisation linguistique, la génération de texte…
Comme en chinois, japonnais ou Coréen dont les mots se sont pas espacés. - Tokens de code : mots clés, inditificateurs, opérateurs, … dans un langage de code.
Cela permet de décomposer les données en unité gérables afin de plus efficacement apprendre des paterns et des relations.
La symbolisation des données d’entrée permet de mieux comprendre et traiter les infos, donc améliorer les performances dans les tâches et applications.
