jueves, 3 de noviembre de 2011

Google Desktop Search

Herramienta gestionada por google, sirve para realizar búsquedas en el PC personal, de diferentes tipos, ya sea texto, música, imágenes, correos, paginas web. Permite  acceder fácil y rápido a la información personal. Manejar esta herramienta es muy bueno ya que nos permite ahorrar tiempo al momento de realizar la investigación necesaria e igualmente de crear carpetas y archivos para organizar la información que se encuentre en el computador.
Google Desktop nos ofrece los resultados mas relevantes en la primera pagina, sin olvidar que cada resultado tiene diferentes características y se puede cambiar esta búsqueda por fecha de documentos, organizándolos de acuerdo a la fecha de creación de este.

GDS andiza los siguientes formatos

  • Internet Explorer
  • AOL Instant Messenger
  • PDF
  • Música
  • Vídeo
  • MSN Messenger
  • Google Talk
  • Gmail
  • Outlook Express
  • Word
  • Excel
  • Imágenes
  • Archivos Zip
  • Power Point



GONZALES. Leonardo. Google gesktop [En line] http://googledesktop.blogspot.com/ [citado noviembre 3 de 2011]

miércoles, 2 de noviembre de 2011

MEMORIAS DE CLASE

DEMANDA DOCUMENTAL Y ESTRATEGIAS DE BUSQUEDA
En el proceso de búsqueda de información se encuentran varias problemáticas, como el crecimiento de fuentes primarias, las fuentes están repartidas, los documentos no se encuentran estructurados.
En muchas ocasiones los usuarios no se toman el tiempo de hacer una delimitación del tema, formula preguntas imprecisas a los sistemas de recuperación de información, no se plantea una búsqueda de información estructurada. A demás los usuarios no conocen el sitio y no hay una oportuna ayuda por parte del profesional, además no se guía de las fuentes complementarias. para evitar estos problemas el usuario debe considerar los siguientes puntos:
Precisar el tema, elección de los términos de búsqueda, selección de las fuentes, ejecución de su proceso de búsqueda, si una persona que tiene una necesidad de información, y sigue los anteriores pasos tendrá unos mejores resultados en su proceso de recuperación de información

DEMANDA DOCUMENTAL Y ESTRATEGIAS DE BUSQUEDA
En el proceso de búsqueda de información se encuentran varias problemáticas, como el crecimiento de fuentes primarias, las fuentes están repartidas, los documentos no se encuentran estructurados.
En muchas ocasiones los usuarios no se toman el tiempo de hacer una delimitación del tema, formula preguntas imprecisas a los sistemas de recuperación de información, no se plantea una búsqueda de información estructurada. A demás los usuarios no conocen el sitio y no hay una oportuna ayuda por parte del profesional, además no se guía de las fuentes complementarias. para evitar estos problemas el usuario debe considerar los siguientes puntos:
Precisar el tema, elección de los términos de búsqueda, selección de las fuentes, ejecución de su proceso de búsqueda, si una persona que tiene una necesidad de información, y sigue los anteriores pasos tendrá unos mejores resultados en su proceso de recuperación de información

MEMORIAS DE CLASE

SISTEMAS DE RECUPERACION DE INFORMACION

La necesidad de información se satisface cuando se consigue la claridad suficiente, lo cual no se sabe cuanta información se necesita para conseguir esa claridad, hay varios tipos de necesidades de información, necesidad de información concreta, necesidad de información orientada al problema.

En esta sesión de clase se definió lo que es recuperación de información, donde encontramos que uno de los problemas que se enfrentan los sistemas de recuperación de información es en definir la relevancia de los resultados de los documentos.

Podemos definir que los sistemas de información son fuentes de almacenamiento de diferentes documentos en todos sus formatos (audio, video, texto entre otros) donde lo más importante es su recuperación.

Fuente: Notas de Clase asignatura Recuperación de Información del Programa de Sistemas de Información de la Universidad de La Salle.

MEMORIAS DE CLASE

En el segundo corte conoceremos temas relacionados con Indización, introducción a la Recuperación de información. Definiciones básicas.

En la primera clase se realizo una explicación por parte del profesor de la importancia de indización de los sistemas de recuperación, para lo cual hace que los documentos sean recuperables, en donde los sistemas de RI conforman índices estructurados. Los temas vistos sobre este tema son:

Estructura de los ficheros, Archivos invertidos se compone del conjunto de palabras que aparece en el texto, ocurrencia lista de apariciones de cada palabra en el texto. A la vez observamos, la estructura de los ficheros.

Fuente: Notas de Clase asignatura Recuperación de Información del Programa de Sistemas de Información de la Universidad de La Salle.

Indización “Técnica del análisis documental para la representar y describir el contenido de los documentos, mediante conceptos principales contenidos en ellos (palabras claves) o vocabularios controlados (descriptores, términos o encabezamientos de materia), con el fin de guiar al usuario en la recuperación de los documentos que necesita” La indización en la documentación. En línea. Disponible en: http://www.galeon.com/indizacion/indizacion.html











lunes, 16 de mayo de 2011

LOS DOCUMENTOS DE TEXTO Y SU ESTRUCTURA

Los documentos se presentan en diferentes formatos como lo son audio, video y texto, los cuales contiene diferentes datos. Estos datos los encontramos dentro de los documentos de texto de forma que se encuentren en orden los cuales se podrían clasificar en: estructurados “información tabulada grabada en un archivo o en una base de datos,” semiestructurados “datos que carecen de rigidez,” y no estructurados “cualquier tipo de texto que este en una representación o formato delimitado”.


De los metadatos podemos decir que son la forma como se organiza los datos de un documento relacionados entre sí. Por otro lado podemos destacar diferentes tendencias como la de Dempsey y Heery “todo metadato” Todos los recursos de información incluyen en sí mismos datos como por ejemplo Titulo y Autor; En la tendencia “metadato en sentido estricto” podemos destacar tres aspectos fundamentales de las definiciones dadas de los metadatos, la funcionabildad identificadora y descriptiva de los metadatos, el contexto de la red y el interlocutor posibilidad de interpretación por la maquina. Otro de los autores “DOVEY” introduce otra clasificación donde se distinguen tres corrientes principales: “la escuela de catalogación” se produce en el mundo bibliotecario y se definen los metadatos por las fichas del catalogo, “la escuela estructuralista” se destacan los creadores de los lenguajes de marcado y “la escuela de la estructura de datos” donde se utilizan los estándares de lenguajes de marcado (HTML).

Los metadatos de clasifican en: “metadatos administrativos o factuales” la información bibliográfica que especifica las circunstancias en que se concede el documento (fecha de creación, modificación, autor e idioma) “metadatos estrictamente descriptivos” este metadato se relaciona con la posibilidad indizar el contenido de un documento para facilitar el acceso a la información contenida en el.

Por último se hace necesario buscar un mecanismo que satisfaga la necesidad de información disponible en la red o en las bibliotecas digitales de los diferentes usuarios, que pueda recuperar esta información en el momento adecuado y con la mayor exactitud posible. Estos nos lleva a considerar las diferentes necesidades de información que tiene cada usuario como lo es utilizar la red para realizar una tarea, recuperar fuentes de información, realizar un nuevo trabajo, o solo como consumidor de información.

El Motor de Búsqueda Google


GOOGLE es uno de los sistemas de recuperación en la web más utilizados, no sólo por la eficiencia en la búsqueda de información de los usuarios, sino también por el diseño de su arquitectura, el que es concebido para realizar un uso eficiente del espacio de almacenamiento y para proteger a los índices, de que se conviertan en un elemento lento y operativo.

Google utiliza el modelo del Espacio Vectorial para el proceso de almacenamiento y recuperación de la información. El objetivo de Google es recuperar la información que es producto de una necesidad de usuario, presentando los documentos más relevantes en la primera lista de la interfaz de Google de forma que estén directamente relacionados con las necesidades de información planteadas por el usuario.

Google presenta dos características importantes en la RI (Recuperación de Información) así:

  • Calcula el grado de calidad de las páginas solicitadas en las consultas. El cálculo se denomina PAGERANK (posición de la página).
  • Google utiliza esta propia capacidad de conexión de los documentos webs para mejorar los resultados de la búsqueda.

Dado lo anterior Google tiene como objetivo proporcionar una alta efectividad en las búsquedas de información, logrando que el usuario al interactúar con la interfaz lo primero que perciba sea la precisión y tiempo de respuesta del motor del SRI, no obstante esto se cumple cuando el usuario a estructurado su consulta, para lo cual arroja una pregunta o término clave al buscador de Google, una vez hecho ello Google desarrolla un proceso de evaluación de la pregunta hecha por el usuario de la siguiente forma:
  • Descomposición (parsing) de la pregunta.
  • Conversión de las palabras a Wordids (identificadores de palabras).
  • Localización de la posición de cada palabra en un “Barril de Almacenamiento”.
  • Exploración de las listas de documentos hasta localizar un documento que contenga todos los términos de búsqueda.
  • Cálculo del rango de este documento para esta pregunta.
  • Una vez llegados al final del barril de almacenamiento, se se vuelve al inicio repitiendo los pasos 4 y 5 para cada palabra de la ecuación de búsqueda.
  • Una vez calculados todos los rangos, se procede a ordenarlos de mayor a menor y presentarlos al usuario.

A partir de lo anterior se puede observar el trabajo previo que realiza el motor de búsqueda de Google para presentar al usuario información relevante y porque no exhaustiva, cabe aclarar que esto solo se da si el usuario posee un pensamiento lógico y estructurado para que al realizar el ejercicio de búsqueda de información lance preguntas precisas al SRI de lo contrario el sistema simplemente responde a la solicitud del usuario sin importar que lo que pide sea específico o general.

Fuente: LA SERNA, NORA, ROMAN ULISES…[et all]. Estudio y Evaluación de los Sistemas de Recuperación de Información. . [En línea]. [Consultado  12 may.]. Disponible en: http://sisbib.unmsm.edu.pe/bibvirtualdata/publicacion/pdf

domingo, 15 de mayo de 2011

EVALUACIÓN Y PRODUCCIÓN DEL CONOCIMIENTO


Appleberry, citado por Breivik y Jones, señala que; La suma total del conocimiento de la humanidad se ha duplicado durante los últimos años así:
1750 a 1900
1900 a 1950
1950 a 1960
1960 a 1965
En este acortamiento del tiempo de duplicación, se ha estimado que la suma total del conocimiento de la humanidad ha aumentado por lo menos cada 5 años desde entonces. De modo que se estima que para el año 2020 el conocimiento se duplicará cada 73 dás.

Para mayor ilustración del contenido por favor visita los siguientes enlaces que te ayudarán a informarte más sobre la producción de conocimiento en le mundo.

Estadísticas Mundiales del Internet http://www.exitoexportador.com/stats.htm
SCImago Journal & Country Rank  http://www.scimagojr.com/
Ranking Mundial de Universidades en la Web http://www.webometrics.info/index_es.html

Fuente: Garrido Humbert. Productos y Agentes de la Información Digital. Universidad de la Salle. 2010

viernes, 13 de mayo de 2011

Necesidad de la evaluación de los Sistemas de Recuperación de Información (SRI)

Los SRI, como cualquier otro sistema, son susceptibles de ser sometidos a evaluación, con el fin de que sus usuarios se encuentren en condiciones de valorar su efectividad y, de este modo, adquieran confianza en los mismos.

La eficiencia del almacenamiento es medida por el espacio que se precisa para almacenar los datos. Una medida común para establecer la eficiencia, es la ratio del tamaño del fichero índice unido al tamaño de los archivos de documentos, sobre el tamaño de los archivos de documentos, esta ratio es conocida como exceso de espacio. Los valores de esta ratio comprendidos entre 1,5 y 3 son típicos de los SRI basados en los ficheros inversos.

Concentrados en mejorar el acierto entre los términos de una pregunta y la representación de los documentos para facilitar el aumento de la exhaustividad y de la precisión de las búsquedas” [BOR, 2000].

El acceso físico es el que concierne a cómo la información demandada es recuperada y representada de forma física al usuario. Tiene que ver con la manera en la que un SRI (manual o automatizado) encuentra dicha información, o indica ciertas directrices al usuario sobre cómo localizarla, una vez que le proporciona su dirección.

Baeza-Yates afirma que existen dos tipos de evaluaciones a efectuar: “cuando se analiza el tiempo de respuesta y el espacio requerido para la gestión se estudia el rendimiento de las estructuras de datos empleadas en la indexación de los documentos, la interacción con el sistema, los retrasos de las redes de comunicaciones y cualquier otro retardo adicionalmente introducido por el software del sistema.

Relevancia vs Pertinencia.

¿Cuándo un documento es relevante?”.

El término relevancia significa “calidad o condición de relevante, importancia, significación”, y el término “relevante” lo define como “importante o significativo”.

Entendemos, por extensión de las definiciones anteriores, que un documento recuperado se puede considerar relevante cuando el contenido del mismo posee alguna significación o importancia con motivo de la pregunta realizada por el usuario, es decir, con su necesidad de información.

Cooper introduce la idea de “utilidad de un documento”, considerando que es mejor definir a la relevancia en términos de la percepción que un usuario posee ante un documento recuperado, es decir: “si el mismo le va a ser útil o no” [COO, 1973].

Es el usuario quién va a analizar el documento y quien lo va a utilizar si le conviene, por lo que los juicios de relevancia van a ser realizados por él, y son esos juicios de relevancia los que van propiciar que un SRI sea considerado bueno o malo.

Pertinencia”. Es decir, relevancia va a quedar asociada con el concepto de la relación existente entre los contenidos de un documento con una temática determinada y pertinencia va a restringirse a la “relación de utilidad” existente entre un documento recuperado y una necesidad de información individual.

“Pertinente” a todo lo que viene a propósito o resulta oportuno, es decir que podemos decir que un documento pertinente es un documento que resulta oportuno, porque le proporciona al usuario final la información que a él le cumple algún propósito.

Los procesos de evaluación están relacionados con la capacidad del sistema de satisfacer las necesidades de información de sus usuarios” [BOR, 2000].

Asumimos, por tanto, el planteamiento de que un documento será relevante para nuestra necesidad de información, cuando el mismo verdaderamente nos aporte algún contenido relacionado con nuestra petición, con lo cual, realmente, cuando hablemos de relevancia podemos estar hablando de pertinencia, siempre que estemos refiriéndonos al punto de vista del usuario final que realiza una operación de recuperación de información.

Medidas tradicionalmente empleadas.

Es conveniente recordar que, de un lado, existen una serie de medidas orientadas a analizar el acceso físico a los datos, y por el otro, existen otras que intentarán analizar si el contenido es o no pertinente.

Rijsbergen se pregunta qué evaluar, y se responde citando a Cleverdon (tests Cranfield) con seis medidas principales: “

1.     La cobertura de una colección;
2.     El tiempo de respuesta del sistema;
3.     La forma de presentación de los resultados;
4.     El esfuerzo realizado por el usuario;
5.     La exhaustividad
6.     La precisión del sistema” [RIJ, 1999].

Medidas basadas en la Relevancia

·         Precisión:  Documentos relevantes recuperados divididos entre el total de documentos recuperados
·         Exhaustividad: Documentos relevantes recuperados dividido entre el total de documentos relevantes
·         Promedio de la efectividad E-P: Promedios de la efectividad en pares de valores de exhaustividad y precisión.
·         Medidas basadas en la relevancia. Fuente: Meadow, C. T. Text
·         Information retrieval Systems. San Diego: Academic Press, 1993.

Medidas de resultado:


Precisión:  
Definida anteriormente
Exhaustividad:
Definida anteriormente
Promedio de la efectividad E-P:
Definida anteriormente
Medidas promedio de la satisfacción del usuario
Medidas que pretenden medir la reacción de los usuarios ante el resultado de una búsqueda.

Medidas basadas en la relevancia.

Se considera de una mayor importancia el conjunto de las medidas basadas en la relevancia que el conjunto de las medidas basadas en el proceso y en el resultado.

En una búsqueda de información, un usuario obtiene un conjunto de documentos, de los cuales unos formarán parte del subconjunto de documentos relevantes con la temática objeto de la búsqueda y otros van a formar parte del subconjunto de documentos que no lo van a ser. Asimismo, este usuario dejará de recuperar otro conjunto de documentos igualmente relevantes con esa temática, y otro conjunto de documentos no relevantes.


MEDIDAS BASADAS EN LA RELEVANCIA
PRECISIÓN
       A n B
          B
EXHAUSTIVIDAD
       A N B
          A
FALLO
        A N B
           A


1.     La precisión mide el porcentaje de documentos recuperados que resultan relevantes con el tema de la pregunta y su cálculo es verdaderamente simple: se divide el total de documentos relevantes recuperados entre el total de documentos recuperados.

2.     La exhaustividad conlleva algunos problemas más en su cálculo, si bien la definición está clara, el número de documentos relevantes recuperados dividido entre el número de documentos totales relevantes de la base de datos,

3.     La tasa de fallo equivale al porcentaje de documentos recuperados no relevantes sobre el total de documentos no relevantes de la base de datos.

Salton tambíen se refiere a una nueva medida, el factor de generalidad: “el grado de documentos relevantes contenidos en una colección” [SAL, 1983]. Una colección con un alto grado de generalidad es una colección donde los documentos relevantes son mayoría frente a los que no lo son.




                                                             ( E X G)
                                 P =
                                                   ( E X G) + F X ( 1 – G )

               P = Precisión; E = Exhaustividad; G = Generalidad y F = Fallo


Enunciación de la Precisión con base en el resto de las tasas. . Fuente: Salton, G. and Mc Gill, M.J. Introduction to Modern Information Retrieval. New York: Mc Graw-Hill Computer Series, 1983

La precisión y la exhaustividad tienden a relacionarse de forma inversa. A mayor valor de precisión menor será el valor de la exhaustividad.

Medidas orientadas al usuario.

Diferentes usuarios pueden tener una interpretación desigual de qué documento es relevante y cuál no lo es” [BAE, 1999].

Korfhage indica que este nuevo conjunto de medidas fue propuesto por Keen a principio de la década de los setenta. Hay tres comunes:

1.     Cobertura: proporción de los documentos relevante conocidos que el usuario ha recuperado.

2.     Novedad: proporción de los documentos recuperados relevantes que eran previamente desconocidos para el usuario

3.     Exhaustividad Relativa: la ratio de los documentos relevantes recuperados examinados por el usuario entre el número de documentos que el usuario está dispuesto a examinar.” [KOR, 1997].

4.     Esfuerzo de exhaustividad”, entendida como “la ratio entre el número de documentos relevantes que el usuario espera encontrar y el número de documentos examinados en un intento de encontrar esos documentos relevantes” [BAE, 1999].

Por lo anterior es claro inferir que la información es susceptible de ser evaluada, sobre todo aquella que cumple con las características de colección intelectual, de modo que sea útil para los usuarios de una unidad de información. La información almacenada en los soportes tradicionales, e incluso en los electrónicos, cuenta desde hace tiempo con un corpus teórico contrastado relativo a los criterios que se deben aplicar para la evaluación de la misma. 
Por consiguiente la evaluación de páginas ó sitios Web es necesaria por motivos cuantitativos y cualitativos, ejemplo de lo anterior es que Google a sobrepasado los dos mil millones de documentos, obligando a que el volumen documental en mención sea revisado mediante criterios de calidad que permitan evaluar la abultada cifra de recursos inversibles, inoperantes y desdeñables en la red, de modo que cualquier fuente de información sea valida si aporta contenidos ricos y útiles y si los mismos son localizados de forma sencilla, en consecuencia de lo anterior es vital que se apliquen instrumentos de medición de la información con el fin de determinar que es relevante y que no lo es, respondiendo de esta forma a los requerimientos del usuario.

Fuentes:

MARÍNZ MÉNDEZ, FRANCISCO JAVIER. Recuperación de información: modelos, sistemas y evaluación. [En línea]. [Consultado  12 may.]. Disponible en: http://uvirtual.lasalle.edu.co/file.php/563/Bibliografia/libro-ri.pdf

MERLO VEGA, JOSÉ ANTONIO. La evaluación de la calidad de la información web: aportaciones teóricas y experiencias prácticas. (Universidad de Salamanca). [En línea]. [Consultado  13 may.]. Disponible en: http://exlibris.usal.es/merlo/escritos/calidad.htm


lunes, 2 de mayo de 2011

Buscador personalizado de repositorios en Honduras

Loading

viernes, 4 de marzo de 2011

PROYECTO OAI


PROYECTO OAI

OAI iniciativa para la transmisión de contenidos en Internet[1]

La iniciativa de archivos abiertos (OAI) desarrolla y promueve normas de interoperabilidad que apuntan a facilitar la difusión eficiente de contenidos en internet. Constituye un esfuerzo para acceder a archivos digitales como un medio para aumentar la disponibilidad de la comunicación académica. Los responsables de coordinar las actividades de AOI son Herbert Van de Sompel Lagoze y Carl quienes operan desde la Universidad de Cornell.

AOI surge por el interés en la búsqueda de alternativas diferentes a los modelos tradicionales de comunicación científica, donde surgieron los llamados repositorios de documentos electrónicos como alternativa para la rápida comunicación de resultados de investigaciones, estos documentos son los eprints. En este nuevo concepto agrupa aquellos documentos que no han pasado por un proceso de certificación o peer review (preprints), y aquellos que si  han pasado por tal proceso postprint (libros, artículos entre otros).

Esta iniciativa tiene el apoyo de la Federación de Bibliotecas Digitales y la Coalition for Networked Information y la national Science Foundation Grants.   


________________________________________
[1] BURRUECO, Jose Manuel: OAI-PMH protocolo  para la transmisión  de contenidos en internet