Veille IA Veille IA sans buzz : pour stratèges québécois.
La veille

Tokenisation

Tokenisation

Tokenisation

Tokenization

Terme IA Intermédiaire 📊 Données et traitement

📖 Définition

La tokenisation est le processus par lequel un texte est découpé en unités plus petites appelées tokens. Cette étape est fondamentale en NLP, car les modèles traitent des représentations numériques de ces tokens plutôt que du texte. La méthode de tokenisation influence la performance, la vitesse et le coût d'utilisation d'un modèle. Différentes stratégies existent, chacune avec des compromis entre taille du vocabulaire et capacité à représenter des langues diverses.

💬 En termes simples

Pensez à un cuisinier qui, avant de préparer un plat, doit découper tous ses ingrédients en morceaux de taille appropriée. Certains sont coupés en gros morceaux, d'autres en fines juliennes. De la même manière, la tokenisation découpe le texte en morceaux que le modèle peut traiter efficacement.

🎯 Exemple concret

Une entreprise québécoise développe un tokeniseur optimisé pour le français québécois qui reconnaît les expressions locales. Un fournisseur infonuagique canadien offre un outil de calcul de tokens pour prévoir les coûts d'utilisation. Une équipe de Mila met au point une tokenisation multilingue qui améliore de 15 % la performance en français.

💡 Le saviez-vous ?

Un texte en français nécessite généralement 20 à 30 % plus de tokens qu'un texte équivalent en anglais, ce qui signifie que les utilisateurs francophones paient souvent plus cher pour des résultats de longueur comparable. Le mot tokenisation est aussi utilisé en cybersécurité pour désigner le remplacement de données sensibles par un jeton non exploitable.

🔐 Connexion rapide

Entrez votre courriel pour recevoir un code à 6 chiffres.

Pas besoin de mot de passe ni d'inscription. Entrez votre courriel, recevez un code par courriel, et c'est tout !