Por ejemplo, si tenemos de entrada la frase:
To sleep perchance to dream
Se separa en tokens de la siguiente manera:
[To] [sleep] [perchance] [to] [dream]
Un tipo es una clase de token con una secuencia única de caracteres. Se pueden identificar y eliminar los tokens iguales dentro del documento. En el ejemplo anterior, podemos observar que tenemos dos tokens [to], entonces al final quedaría de la siguiente manera:
[To][sleep][perchance][dream]
Un término es un tipo (normalizado) que se incluye en el diccionario del sistema de procesamiento de información. El vocabulario es el conjunto de términos de una colección de documentos.
Realizando un borrado de Stopwords, se puede reducir la dimensión del vocabulario y eliminar información innecesaria y de poco valor para el documento. Un ejemplo de tokens que pueden ser eliminados son los artículos, pronombres, preposiciones, conjunciones, etcétera.
En este caso, nuestra frase final quedaría reducida a [sleep][perchance][dream], que son los elementos importantes de la frase. Cabe mencionar que dichas palabras se eliminan en base su utilidad en la frase, por ejemplo, en la frase "flights to london" la palabra to forma parte importante de la frase y si se elimina podría perder su significado.
- Introduction to Information Retrieval, Cambridge University Press. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, 2008
- Procesamiento de texto y modelo vectorial. (Felipe Bravo Marquez)
Buenas tardes, Gaby!
ReplyDeleteMi nombre es Eugenia Bahit. Soy la Responsable Editorial de Hackers & Developers Magazine y me gustaría ponerme en contacto contigo. He dejado un mensaje similar en el blog en el que escribes junto a Carmen Suárez (Cómputo Integrado).
No he encontrado otra forma de escribirte, por eso te dejo el Twitter y correo oficiales del magazine por si puedes enviar un mensaje para que pueda contactarte.
Twitter: https://twitter.com/HackDevMagazine
Correo: hdmagazine [ARROBA] riseup [PUNTO] net
Espero noticias tuyas :)
Muchas gracias!