Preelaborazione

The content on this page was translated automatically.

Preelaborazione dei dati testuali

Tokenizzazione

Esiste una varietà di strumenti che si occupano di tokenizzazione. Tuttavia, per quanto riguarda le PMI (settore commerciale), il loro punto debole è l'identificazione dei prezzi come token. Ad esempio, "200$" viene solitamente identificato come due token separati.

La figura seguente illustra il risultato esemplare della preelaborazione che coinvolge il tokenizer (con l'identificazione dei prezzi come un unico token) e il filtraggio (cioè la rimozione delle stopword). Il testo originale è il seguente "Mentre era uno studente dell'Università del Texas ad Austin nel 1984, Michael Dell fondò la società PC's Limited con un capitale di 1.000 dollari. Nel 1985, la società produsse il primo computer di sua progettazione, il Turbo PC, venduto a 795 dollari". (tratto da en.wikipedia.org/wiki/Dell).

 

 

Filtraggio (rimozione delle "stopwords") 

Esempi di "stopwords": inglese, tedesco, spagnolo, italiano, francese