Preprocesamiento

The content on this page was translated automatically.

Preprocesamiento de datos textuales

Tokenización

Existe una gran variedad de herramientas relacionadas con la tokenización. Sin embargo, en lo que respecta a las PYME (ámbito empresarial), el punto débil de las mismas es la identificación de precios como tokens. Por ejemplo, "200 $" suele identificarse como dos fichas distintas.

La figura siguiente muestra un ejemplo de preprocesamiento con tokenizador (que identifica los precios como un token) y filtrado (eliminación de palabras vacías). El texto original es el siguiente "Mientras estudiaba en la Universidad de Texas en Austin en 1984, Michael Dell fundó la empresa PC's Limited con un capital de 1.000 dólares. En 1985, la empresa fabricó el primer ordenador de diseño propio, el Turbo PC, que se vendía por 795 dólares". (tomado de en.wikipedia.org/wiki/Dell).

 

 

Filtrado (eliminación de "stopwords") 

Ejemplos de "stopwords": inglés, alemán, español, italiano, francés