Thursday, July 24, 2014

Índices por zona y parámetros


Los documentos electrónicos usualmente codifican metadatos (en inglés metadata) asociados con el documento y que sólo puedan ser reconocidos por las computadoras. Podríamos definir metadatos como formas específicas de información sobre un documento (por ejemplo el autor, título, fecha de publicación, etc). Dicha información generalmente incluye campos como la fecha de creación y el formato del documento, así como las que mencionamos anteriormente. Los valores posibles de un campo se dice que son finitos (por ejemplo en las fechas, sería el conjunto de fechas posibles).

Por ejemplo si queremos encontrar documentos escritos por Shakespeare en 1601, conteniendo la frase "alas poor Yorick", se van a realizar intersecciones, a menos de que éstas se puedan fusionar invertidos de forma estándar a índices paramétricos. Existe un índice paramétrico para cada campo, el cual permite seleccionar únicamente los documentos que coinciden con el parámetro en específico. Algunos tienen ya valores ordenados. También se pueden asignar rangos a los valores de los índices, como en las fechas. En un diccionario se pueden tener campos con cada una de las letras.

Las zonas son parecidas a los campos, sin embargo, los contenidos de una zona pueden variar mucho más. Incluso se puede agregar texto de manera libre. Por ejemplo, los títulos de un documento, así como el resumen puede ser clasificado como zona. Se pueden realizar índices separados para cada zona del documento. En el ejemplo del diccionario, su índice de la zona debería estructurar el vocabulario principal del texto de dicha zona.

En una búsqueda por parámetros el usuario puede especificar los requerimientos en cada uno de los campos y zonas.


De lado izquierdo de la imagen se puede observar que la búsqueda de los libros se realiza por diferentes parámetros, tales como editorial, autor, categoría, entre otros. De esta forma se van filtrando los resultados.
En el índice por parámetros se clasifica uno por cada campo o zona.


En el índice por zona, los campos y zonas se codifican como extensiones donde hay un término. Una ventaja es que facilita la búsqueda y las respuestas a preguntas. También ayuda a reducir el tamaño de la búsqueda considerablemente. 


Bibliografía

No comments:

Post a Comment