Prétraitement

The content on this page was translated automatically.

Prétraitement des données textuelles

Tokenization

Il existe une grande variété d'outils traitant de la tokenisation. Toutefois, en ce qui concerne les PME (domaine d'activité), leur faiblesse réside dans l'identification des prix en tant que tokens. Par exemple, "200$" est généralement identifié comme deux tokens distincts.

La figure ci-dessous illustre la sortie exemplaire du prétraitement impliquant le tokenizer (avec l'identification des prix comme un jeton) et le filtrage (c'est-à-dire l'élimination des mots d'arrêt). L'échantillon de texte original est "Alors qu'il était étudiant à l'université du Texas à Austin en 1984, Michael Dell a fondé la société PC's Limited avec un capital de 1000 $. En 1985, la société a produit le premier ordinateur de sa propre conception, le Turbo PC, vendu pour 795 $". (tiré de en.wikipedia.org/wiki/Dell).

 

 

Filtrage (suppression des "stopwords") 

Examples of "stopwords" : anglais, allemand, espagnol, italien, français