Wednesday, September 24, 2014

Tokenización

Tokenización es la acción de cortar una frase o una serie de palabras en pedazos llamados tokens. El token es la instancia de una secuencia de caracteres en un documento en particular que se agrupan en cierto orden para formar una frase en particular.

Por ejemplo, si tenemos de entrada la frase:
To sleep perchance to dream
Se separa en tokens de la siguiente manera:
[To] [sleep] [perchance] [to] [dream]

Un tipo es una clase de token con una secuencia única de caracteres. Se pueden identificar y eliminar los tokens iguales dentro del documento. En el ejemplo anterior, podemos observar que tenemos dos tokens [to], entonces al final quedaría de la siguiente manera:
[To][sleep][perchance][dream]
Un término es un tipo (normalizado) que se incluye en el diccionario del sistema de procesamiento de información. El vocabulario es el conjunto de términos de una colección de documentos.

Realizando un borrado de Stopwords, se puede reducir la dimensión del vocabulario y eliminar información innecesaria y de poco valor para el documento. Un ejemplo de tokens que pueden ser eliminados son los artículos, pronombres, preposiciones, conjunciones, etcétera.
En este caso, nuestra frase final quedaría reducida a [sleep][perchance][dream], que son los elementos importantes de la frase. Cabe mencionar que dichas palabras se eliminan en base su utilidad en la frase, por ejemplo, en la frase "flights to london" la palabra to forma parte importante de la frase y si se elimina podría perder su significado.

Bibliografía



No comments:

Post a Comment