Thursday, July 24, 2014

Procesamiento de datos (Information Retrieval)




El procesamiento de datos (en inglés information retrieval o IR) consiste en encontrar material que contenga grandes cantidades de información no estructurada. Normalmente dicha información se almacena en documentos de texto electrónicos.

Con el paso del tiempo y las nuevas tecnologías, la recuperación de datos cada vez se ha vuelto más importante y ha ido evolucionando. Millones de personas utilizan procesamiento o recuperación de datos todos los días al momento de buscar información por internet, por ejemplo desde un buscador, cuando buscan en sus correos, entre otras. Es una forma de acceso a la información que cada vez se vuelve más dominante e importante, y está cambiando la manera en la que se busca información almacenada en bases de datos. Un ejemplo es cuando queremos buscar un pedido, que para facilitar la búsqueda introducimos un número de confirmación. En una búsqueda web, por ejemplo, el sistema tiene que mostrar resultados de búsqueda que se acerquen a las necesidades del usuario en billones de documentos almacenados en millones de computadoras.

Como se dijo anteriormente, la información que se recupera en estos casos normalmente no tiene ningún tipo de estructura semántica, clara o que sea fácil de organizar. Al obtener información de los documentos, se tiene que ordenar de manera adecuada. Es como cuando se acomodan libros en un librero, se busca ordenarlos por categorías, temas, tareas, etc. Otro ejemplo podría ser el Spotlight que se usa en Mac OS X para realizar búsquedas instantáneas de información personal almacenada en la computadora.

Para entender mejor el problema de recuperación de datos podemos compararlo con un libro, donde queremos buscar palabras claves o personajes de la historia, excluyendo otros. Una manera de realizar la búsqueda es empezando a buscar las palabras en todo el texto desde el principio. La computadora puede realizar una búsqueda lineal en los documentos que se quieren encontrar. A este proceso se le conoce como grepping, llamado así por el comando grep, que realiza este proceso. Grepping puede ser un proceso muy efectivo.

La cantidad de información que existe en internet aumenta cada vez más, y es necesario procesar colecciones largas de documentos de manera más rápida, por lo que se han ido creando diferentes técnicas para realizar esta tarea. Dichas técnicas se verán más adelante. 






No comments:

Post a Comment