Tokenisation
Tokenization
📖 Définition
💬 En termes simples
Pensez à un cuisinier qui, avant de préparer un plat, doit découper tous ses ingrédients en morceaux de taille appropriée. Certains sont coupés en gros morceaux, d'autres en fines juliennes. De la même manière, la tokenisation découpe le texte en morceaux que le modèle peut traiter efficacement.
🎯 Exemple concret
Une entreprise québécoise développe un tokeniseur optimisé pour le français québécois qui reconnaît les expressions locales. Un fournisseur infonuagique canadien offre un outil de calcul de tokens pour prévoir les coûts d'utilisation. Une équipe de Mila met au point une tokenisation multilingue qui améliore de 15 % la performance en français.
💡 Le saviez-vous ?
Un texte en français nécessite généralement 20 à 30 % plus de tokens qu'un texte équivalent en anglais, ce qui signifie que les utilisateurs francophones paient souvent plus cher pour des résultats de longueur comparable. Le mot tokenisation est aussi utilisé en cybersécurité pour désigner le remplacement de données sensibles par un jeton non exploitable.