lunes, 16 de mayo de 2011

LOS DOCUMENTOS DE TEXTO Y SU ESTRUCTURA

Los documentos se presentan en diferentes formatos como lo son audio, video y texto, los cuales contiene diferentes datos. Estos datos los encontramos dentro de los documentos de texto de forma que se encuentren en orden los cuales se podrían clasificar en: estructurados “información tabulada grabada en un archivo o en una base de datos,” semiestructurados “datos que carecen de rigidez,” y no estructurados “cualquier tipo de texto que este en una representación o formato delimitado”.


De los metadatos podemos decir que son la forma como se organiza los datos de un documento relacionados entre sí. Por otro lado podemos destacar diferentes tendencias como la de Dempsey y Heery “todo metadato” Todos los recursos de información incluyen en sí mismos datos como por ejemplo Titulo y Autor; En la tendencia “metadato en sentido estricto” podemos destacar tres aspectos fundamentales de las definiciones dadas de los metadatos, la funcionabildad identificadora y descriptiva de los metadatos, el contexto de la red y el interlocutor posibilidad de interpretación por la maquina. Otro de los autores “DOVEY” introduce otra clasificación donde se distinguen tres corrientes principales: “la escuela de catalogación” se produce en el mundo bibliotecario y se definen los metadatos por las fichas del catalogo, “la escuela estructuralista” se destacan los creadores de los lenguajes de marcado y “la escuela de la estructura de datos” donde se utilizan los estándares de lenguajes de marcado (HTML).

Los metadatos de clasifican en: “metadatos administrativos o factuales” la información bibliográfica que especifica las circunstancias en que se concede el documento (fecha de creación, modificación, autor e idioma) “metadatos estrictamente descriptivos” este metadato se relaciona con la posibilidad indizar el contenido de un documento para facilitar el acceso a la información contenida en el.

Por último se hace necesario buscar un mecanismo que satisfaga la necesidad de información disponible en la red o en las bibliotecas digitales de los diferentes usuarios, que pueda recuperar esta información en el momento adecuado y con la mayor exactitud posible. Estos nos lleva a considerar las diferentes necesidades de información que tiene cada usuario como lo es utilizar la red para realizar una tarea, recuperar fuentes de información, realizar un nuevo trabajo, o solo como consumidor de información.

El Motor de Búsqueda Google


GOOGLE es uno de los sistemas de recuperación en la web más utilizados, no sólo por la eficiencia en la búsqueda de información de los usuarios, sino también por el diseño de su arquitectura, el que es concebido para realizar un uso eficiente del espacio de almacenamiento y para proteger a los índices, de que se conviertan en un elemento lento y operativo.

Google utiliza el modelo del Espacio Vectorial para el proceso de almacenamiento y recuperación de la información. El objetivo de Google es recuperar la información que es producto de una necesidad de usuario, presentando los documentos más relevantes en la primera lista de la interfaz de Google de forma que estén directamente relacionados con las necesidades de información planteadas por el usuario.

Google presenta dos características importantes en la RI (Recuperación de Información) así:

  • Calcula el grado de calidad de las páginas solicitadas en las consultas. El cálculo se denomina PAGERANK (posición de la página).
  • Google utiliza esta propia capacidad de conexión de los documentos webs para mejorar los resultados de la búsqueda.

Dado lo anterior Google tiene como objetivo proporcionar una alta efectividad en las búsquedas de información, logrando que el usuario al interactúar con la interfaz lo primero que perciba sea la precisión y tiempo de respuesta del motor del SRI, no obstante esto se cumple cuando el usuario a estructurado su consulta, para lo cual arroja una pregunta o término clave al buscador de Google, una vez hecho ello Google desarrolla un proceso de evaluación de la pregunta hecha por el usuario de la siguiente forma:
  • Descomposición (parsing) de la pregunta.
  • Conversión de las palabras a Wordids (identificadores de palabras).
  • Localización de la posición de cada palabra en un “Barril de Almacenamiento”.
  • Exploración de las listas de documentos hasta localizar un documento que contenga todos los términos de búsqueda.
  • Cálculo del rango de este documento para esta pregunta.
  • Una vez llegados al final del barril de almacenamiento, se se vuelve al inicio repitiendo los pasos 4 y 5 para cada palabra de la ecuación de búsqueda.
  • Una vez calculados todos los rangos, se procede a ordenarlos de mayor a menor y presentarlos al usuario.

A partir de lo anterior se puede observar el trabajo previo que realiza el motor de búsqueda de Google para presentar al usuario información relevante y porque no exhaustiva, cabe aclarar que esto solo se da si el usuario posee un pensamiento lógico y estructurado para que al realizar el ejercicio de búsqueda de información lance preguntas precisas al SRI de lo contrario el sistema simplemente responde a la solicitud del usuario sin importar que lo que pide sea específico o general.

Fuente: LA SERNA, NORA, ROMAN ULISES…[et all]. Estudio y Evaluación de los Sistemas de Recuperación de Información. . [En línea]. [Consultado  12 may.]. Disponible en: http://sisbib.unmsm.edu.pe/bibvirtualdata/publicacion/pdf

domingo, 15 de mayo de 2011

EVALUACIÓN Y PRODUCCIÓN DEL CONOCIMIENTO


Appleberry, citado por Breivik y Jones, señala que; La suma total del conocimiento de la humanidad se ha duplicado durante los últimos años así:
1750 a 1900
1900 a 1950
1950 a 1960
1960 a 1965
En este acortamiento del tiempo de duplicación, se ha estimado que la suma total del conocimiento de la humanidad ha aumentado por lo menos cada 5 años desde entonces. De modo que se estima que para el año 2020 el conocimiento se duplicará cada 73 dás.

Para mayor ilustración del contenido por favor visita los siguientes enlaces que te ayudarán a informarte más sobre la producción de conocimiento en le mundo.

Estadísticas Mundiales del Internet http://www.exitoexportador.com/stats.htm
SCImago Journal & Country Rank  http://www.scimagojr.com/
Ranking Mundial de Universidades en la Web http://www.webometrics.info/index_es.html

Fuente: Garrido Humbert. Productos y Agentes de la Información Digital. Universidad de la Salle. 2010

viernes, 13 de mayo de 2011

Necesidad de la evaluación de los Sistemas de Recuperación de Información (SRI)

Los SRI, como cualquier otro sistema, son susceptibles de ser sometidos a evaluación, con el fin de que sus usuarios se encuentren en condiciones de valorar su efectividad y, de este modo, adquieran confianza en los mismos.

La eficiencia del almacenamiento es medida por el espacio que se precisa para almacenar los datos. Una medida común para establecer la eficiencia, es la ratio del tamaño del fichero índice unido al tamaño de los archivos de documentos, sobre el tamaño de los archivos de documentos, esta ratio es conocida como exceso de espacio. Los valores de esta ratio comprendidos entre 1,5 y 3 son típicos de los SRI basados en los ficheros inversos.

Concentrados en mejorar el acierto entre los términos de una pregunta y la representación de los documentos para facilitar el aumento de la exhaustividad y de la precisión de las búsquedas” [BOR, 2000].

El acceso físico es el que concierne a cómo la información demandada es recuperada y representada de forma física al usuario. Tiene que ver con la manera en la que un SRI (manual o automatizado) encuentra dicha información, o indica ciertas directrices al usuario sobre cómo localizarla, una vez que le proporciona su dirección.

Baeza-Yates afirma que existen dos tipos de evaluaciones a efectuar: “cuando se analiza el tiempo de respuesta y el espacio requerido para la gestión se estudia el rendimiento de las estructuras de datos empleadas en la indexación de los documentos, la interacción con el sistema, los retrasos de las redes de comunicaciones y cualquier otro retardo adicionalmente introducido por el software del sistema.

Relevancia vs Pertinencia.

¿Cuándo un documento es relevante?”.

El término relevancia significa “calidad o condición de relevante, importancia, significación”, y el término “relevante” lo define como “importante o significativo”.

Entendemos, por extensión de las definiciones anteriores, que un documento recuperado se puede considerar relevante cuando el contenido del mismo posee alguna significación o importancia con motivo de la pregunta realizada por el usuario, es decir, con su necesidad de información.

Cooper introduce la idea de “utilidad de un documento”, considerando que es mejor definir a la relevancia en términos de la percepción que un usuario posee ante un documento recuperado, es decir: “si el mismo le va a ser útil o no” [COO, 1973].

Es el usuario quién va a analizar el documento y quien lo va a utilizar si le conviene, por lo que los juicios de relevancia van a ser realizados por él, y son esos juicios de relevancia los que van propiciar que un SRI sea considerado bueno o malo.

Pertinencia”. Es decir, relevancia va a quedar asociada con el concepto de la relación existente entre los contenidos de un documento con una temática determinada y pertinencia va a restringirse a la “relación de utilidad” existente entre un documento recuperado y una necesidad de información individual.

“Pertinente” a todo lo que viene a propósito o resulta oportuno, es decir que podemos decir que un documento pertinente es un documento que resulta oportuno, porque le proporciona al usuario final la información que a él le cumple algún propósito.

Los procesos de evaluación están relacionados con la capacidad del sistema de satisfacer las necesidades de información de sus usuarios” [BOR, 2000].

Asumimos, por tanto, el planteamiento de que un documento será relevante para nuestra necesidad de información, cuando el mismo verdaderamente nos aporte algún contenido relacionado con nuestra petición, con lo cual, realmente, cuando hablemos de relevancia podemos estar hablando de pertinencia, siempre que estemos refiriéndonos al punto de vista del usuario final que realiza una operación de recuperación de información.

Medidas tradicionalmente empleadas.

Es conveniente recordar que, de un lado, existen una serie de medidas orientadas a analizar el acceso físico a los datos, y por el otro, existen otras que intentarán analizar si el contenido es o no pertinente.

Rijsbergen se pregunta qué evaluar, y se responde citando a Cleverdon (tests Cranfield) con seis medidas principales: “

1.     La cobertura de una colección;
2.     El tiempo de respuesta del sistema;
3.     La forma de presentación de los resultados;
4.     El esfuerzo realizado por el usuario;
5.     La exhaustividad
6.     La precisión del sistema” [RIJ, 1999].

Medidas basadas en la Relevancia

·         Precisión:  Documentos relevantes recuperados divididos entre el total de documentos recuperados
·         Exhaustividad: Documentos relevantes recuperados dividido entre el total de documentos relevantes
·         Promedio de la efectividad E-P: Promedios de la efectividad en pares de valores de exhaustividad y precisión.
·         Medidas basadas en la relevancia. Fuente: Meadow, C. T. Text
·         Information retrieval Systems. San Diego: Academic Press, 1993.

Medidas de resultado:


Precisión:  
Definida anteriormente
Exhaustividad:
Definida anteriormente
Promedio de la efectividad E-P:
Definida anteriormente
Medidas promedio de la satisfacción del usuario
Medidas que pretenden medir la reacción de los usuarios ante el resultado de una búsqueda.

Medidas basadas en la relevancia.

Se considera de una mayor importancia el conjunto de las medidas basadas en la relevancia que el conjunto de las medidas basadas en el proceso y en el resultado.

En una búsqueda de información, un usuario obtiene un conjunto de documentos, de los cuales unos formarán parte del subconjunto de documentos relevantes con la temática objeto de la búsqueda y otros van a formar parte del subconjunto de documentos que no lo van a ser. Asimismo, este usuario dejará de recuperar otro conjunto de documentos igualmente relevantes con esa temática, y otro conjunto de documentos no relevantes.


MEDIDAS BASADAS EN LA RELEVANCIA
PRECISIÓN
       A n B
          B
EXHAUSTIVIDAD
       A N B
          A
FALLO
        A N B
           A


1.     La precisión mide el porcentaje de documentos recuperados que resultan relevantes con el tema de la pregunta y su cálculo es verdaderamente simple: se divide el total de documentos relevantes recuperados entre el total de documentos recuperados.

2.     La exhaustividad conlleva algunos problemas más en su cálculo, si bien la definición está clara, el número de documentos relevantes recuperados dividido entre el número de documentos totales relevantes de la base de datos,

3.     La tasa de fallo equivale al porcentaje de documentos recuperados no relevantes sobre el total de documentos no relevantes de la base de datos.

Salton tambíen se refiere a una nueva medida, el factor de generalidad: “el grado de documentos relevantes contenidos en una colección” [SAL, 1983]. Una colección con un alto grado de generalidad es una colección donde los documentos relevantes son mayoría frente a los que no lo son.




                                                             ( E X G)
                                 P =
                                                   ( E X G) + F X ( 1 – G )

               P = Precisión; E = Exhaustividad; G = Generalidad y F = Fallo


Enunciación de la Precisión con base en el resto de las tasas. . Fuente: Salton, G. and Mc Gill, M.J. Introduction to Modern Information Retrieval. New York: Mc Graw-Hill Computer Series, 1983

La precisión y la exhaustividad tienden a relacionarse de forma inversa. A mayor valor de precisión menor será el valor de la exhaustividad.

Medidas orientadas al usuario.

Diferentes usuarios pueden tener una interpretación desigual de qué documento es relevante y cuál no lo es” [BAE, 1999].

Korfhage indica que este nuevo conjunto de medidas fue propuesto por Keen a principio de la década de los setenta. Hay tres comunes:

1.     Cobertura: proporción de los documentos relevante conocidos que el usuario ha recuperado.

2.     Novedad: proporción de los documentos recuperados relevantes que eran previamente desconocidos para el usuario

3.     Exhaustividad Relativa: la ratio de los documentos relevantes recuperados examinados por el usuario entre el número de documentos que el usuario está dispuesto a examinar.” [KOR, 1997].

4.     Esfuerzo de exhaustividad”, entendida como “la ratio entre el número de documentos relevantes que el usuario espera encontrar y el número de documentos examinados en un intento de encontrar esos documentos relevantes” [BAE, 1999].

Por lo anterior es claro inferir que la información es susceptible de ser evaluada, sobre todo aquella que cumple con las características de colección intelectual, de modo que sea útil para los usuarios de una unidad de información. La información almacenada en los soportes tradicionales, e incluso en los electrónicos, cuenta desde hace tiempo con un corpus teórico contrastado relativo a los criterios que se deben aplicar para la evaluación de la misma. 
Por consiguiente la evaluación de páginas ó sitios Web es necesaria por motivos cuantitativos y cualitativos, ejemplo de lo anterior es que Google a sobrepasado los dos mil millones de documentos, obligando a que el volumen documental en mención sea revisado mediante criterios de calidad que permitan evaluar la abultada cifra de recursos inversibles, inoperantes y desdeñables en la red, de modo que cualquier fuente de información sea valida si aporta contenidos ricos y útiles y si los mismos son localizados de forma sencilla, en consecuencia de lo anterior es vital que se apliquen instrumentos de medición de la información con el fin de determinar que es relevante y que no lo es, respondiendo de esta forma a los requerimientos del usuario.

Fuentes:

MARÍNZ MÉNDEZ, FRANCISCO JAVIER. Recuperación de información: modelos, sistemas y evaluación. [En línea]. [Consultado  12 may.]. Disponible en: http://uvirtual.lasalle.edu.co/file.php/563/Bibliografia/libro-ri.pdf

MERLO VEGA, JOSÉ ANTONIO. La evaluación de la calidad de la información web: aportaciones teóricas y experiencias prácticas. (Universidad de Salamanca). [En línea]. [Consultado  13 may.]. Disponible en: http://exlibris.usal.es/merlo/escritos/calidad.htm


lunes, 2 de mayo de 2011

Buscador personalizado de repositorios en Honduras

Loading