Demanda Documental

lunes, 13 de septiembre de 2010

tecnologia de redes

recuperación de información, sistemas de recuperación de información, busqueda y recuperación de información, lenguajes de recuperación de información, metadatos, posicionamiento web, indexaxción y búsqueda
Tecnologia de redes 
Universidad de la Salle
Sistemas de información

jueves, 20 de mayo de 2010

INDEXACION

El proceso de recuperación de información consiste esencialmente en extraer de una colección de documentos aquellos que se ajustan a las especificaciones de un petición determinada. Se trata pues de una comparación sistemática entre los documentos o sus representaciones y la petición o demanda de información. Podemos descomponer el proceso en tres fases: * Traducción del documento en un lenguaje de indexación. La expresión que resulta de este proceso se llama modelo de búsqueda del documento. Se trata de representar el documento por una serie de descriptores que lo determinen lo más directamente posible para su posterior indexacion búsqueda. * Expresión de la petición de información en el mismo lenguaje del modelo de búsqueda. Se obtiene el denominado perfil de búsqueda. * Comparación sistemática de los modelos de búsqueda de los documentos con el perfil de búsqueda, a fin de seleccionar los que se ajusten a este. La operación resultaría relativamente sencilla si los lenguajes de indexación y de búsqueda coincidieran exactamente. Ello, sin embargo, no es así en la mayoría de los casos, ya que los productores de bases de datos y repertorios bibliográficos suelen indexar en lenguaje libre o semilibre, lo que resulta mucho más fácil y económico para sus fines. Por tanto, al seleccionar los descriptores para la búsqueda, habrá que tener en cuenta todas las posibles formas de expresión de un concepto en la indexación de los documentos (sinónimos, conceptos más generales y más específicos, etc.) ya que de otro modo podrían perderse cantidades importantes de información. Por otra parte, si la selección es demasiado amplia, se obtendrán documentos carentes de interés. De ahí la importancia de preparar adecuadamente el perfil de búsqueda, operación que resulta así la mas importante en el proceso de indexacion recuperación de información.

miércoles, 19 de mayo de 2010

Posicionamiento Web

Existen multiples herramientas que nos permiten la una mejor indexación de nuestras paginas Web. Existen unos comandos especiales que nos permiten tener información de como se está indexando la información que se pueden digitar antes de la direccion de URL: site: Páginas indexadas de su sitio link: Páginas que enlazan a la página de presentación de su sitio web cache: Caché actual de su sitio info: Información de que disponemos sobre su sitio related: Páginas similares a su sitio tambien se pueden usar sitemas. Un sitema es un mapa de nuestro sitio con un formato determinado (xml) que permite a google indexar mejor la información.

indexación incremental VS indización por lotes

Indexación incremental vs indexación por lotes. "El término de indexación por lotes se utiliza para referirse a aquellos procesos de indexación, en los cuales, una vez que ha sido creado el índice para un conjunto de documentos, el intentar añadir algunos documentos nuevos es una tarea difícil por lo que se opta por reindexar todos los documentos de nuevo. Sin embargo en la indexación incremental se pueden añadir documentos a un índice ya creado con anterioridad de forma fácil. Lucene soporta ambos tipos de indexación." articulo tomado del link: http://trevinca.ei.uvigo.es/~pcuesta/sm/practicas/Lucene.pdf

PROCESO DE INDEXACION

El término proceso de indexación hace referencia al proceso de análisis de documentos para la obtención de una representación concreta de los mismos.

Normas de Indización

Normas de Indización: ISO 5963 / 1985 (establece los métodos para el examen de documentos. Se explica como determinar el contenido y los términos de indización). ANSI (American Nacional Standar Institu) UNESCO (Principios de indización). AFNOR (Principios de indización) ERIC (Instituto General de Educación. Este también ha echo unas normas para normalizar los lenguajes documentales).

Definicion de Indizacion

Según norma ISO 5963 de 1985 la indización es el proceso de describir o representar el contenido temático de un recurso de información. Este proceso da como resultado un índice de términos de indización que será utilizado como herramienta de búsqueda y acceso al contenido de recursos en sistemas de recuperación de información.

Google Desktop

Google Desktop es una herramienta gratuita incluida en el Google Pack que sirve para hacer búsquedas en tu ordenador. Puedes buscar archivos, música, fotos, texto en correos electrónicos, páginas web visitadas, etc, lo que te permite acceder fácilmente a toda la información de tu ordenador. Esto te ahorra el trabajo de tener que organizar manualmente tus archivos, mensajes, etc. Google Desktop también te permite buscar documentos que hayas borrado accidentalmente. Cuando haces una búsqueda, Google Desktop muestra los resultados de búsqueda más relevantes en una página, cada uno de ellos con el nombre del archivo y una breve muestra del contenido con los términos de búsqueda resaltados. Google Desktop busca en el texto completo de los siguientes tipos de archivo Gmail Outlook Express Word Excel Power Point Internet Explorer AOL Instant Messenger MSN Messenger Google Talk Netscape Mail / Thunderbird Netscape / Firefox / Mozilla PDF Música Vídeo Imágenes Archivos Zip

Tipos de indexación

Tipos de indexación Por palabras: se indexa cada palabra del documento con excepción de palabras vacías como los artículos “la, el, los etc” o si, no, e, a, etc. De string: cuando se indexan palabras o frases completas.

indixación automatizada

La indización automatizada, identifica en los documentos las palabras claves que abrevien todo o la mayor parte del contenido de un texto, lo que hace es extraer los términos de indización de forma automática con la ayuda de las máquinas con las que se pueden realizar búsquedas por medio de listas, términos de conjunto abierto o a través de una indización controlada, como tesauros u ontologías. Para lograr la indización automática lo se debe indizar las partes principales del documento como el título, los subtítulos, el resumen, autor etc. o indizan el texto completo, pero el mayor porcentaje de la recuperación de información la arrojan los términos indexados en el título, y muy poco en el texto completo.

INDEXACIÓN

Indexación: Indexar refiere a registrar ordenadamente información para elaborar un índice. En terminología de internet, indexar hace referencia a agregar una o más paginas Web, bases de datos de los buscadores de internet, con el fin de recuperar la información con los términos de búsqueda que aparezcan en los resultados de búsquedas de los mismos. En Informática, Indexar tiene como propósito ejecutar términos de un índice que contenga de forma ordenada la información, esto con la finalidad de obtener resultados de forma sustancialmente será más rápido y selecto al momento de realizar una búsqueda.

martes, 18 de mayo de 2010

DEFINICION DE INFORMACION

INFORMACION: Conjunto de datos numericos, alfabeticos y alfanumericos ordenados, al estar organizados y que tienen un significado especifioc y disminuyen la incertidumbre sobre un tema e incrementan el conocimiento de del tema trato.

HIPERTEXTO

EL ENLACE QUE MOSTRAREMOS A CONTINUACION NOS PARECIO DE ALTA RELEVANCIA, NO SOLO PARA EL TEMA DE RECUPERACION DE INFORMACION SINO POR LA INFORMACION QUE ENCONTRAREMOS RELACIONADA PARA LOS QUE ESTUDIAMOS SISTEMAS DE INFORMACION Y DOCUMENTACION, ENCONTRAREMOS INDIZACION Y CLASIFICACION DE HIPERTEXTOS, NORMALIZACION, GLOSARIOS, WEB 2.0, LENGUAJES, TAXONOMIAS, TESAUROS, MARC, ENTRE OTROS TEMAS ESTE ES EL LINK: http://www.hipertexto.info/documentos/indice_tematic.htm

noticias recuperacion de informacion Recuperación de Información: recuperación de información

recuperacion-de-informacion.html#links">noticias recuperacion de informacion Recuperación de Información: recuperación de información

recuperación de información, sistemas de recuperación de información, busqueda y recuperación de información, lenguajes de recuperación de información, metadatos, posicionamiento web, indexaxción y búsqueda
http://recuperainformacion.blogspot.com/2009/05/demanda-documental_26.html

domingo, 25 de abril de 2010

Sistemas de recuperacion de información, busqueda y recuperacion de informacion





La recuperación de información, llamada en inglés information retrieval (IR), es la ciencia de la búsqueda de información en documentos, búsqueda de los mismos documentos, la búsqueda de metadatos que describan documentos, o, también, la búsqueda en bases de datos, ya sea a través de internet, intranet, para textos, imágenes, sonido o datos de otras características, de manera pertinente y relevante.

La recuperación de información es un estudio interdisciplinario. Cubre tantas disciplinas que eso genera normalmente un conocimiento parcial desde tan solo una u otra perspectiva. Algunas de las disciplinas que se ocupan de estos estudios son la psicología cognitiva, la arquitectura de la información, diseño de la información, el comportamiento humano hacia la información, la lingüística, la semiótica, informática, biblioteconomía y documentación.

Demanda Documental, Sistemas de recuperacion de información, busqueda y recuperacion de informacion

Se considera demanda documental a todas las necesidades de información establecidas por los usuarios, lo que lleva a una solicitud masiva de documentos que permitan satisfacer dicha necesidad.

http://recuperainformacion.blogspot.com/2009/05/demanda-documental_26.html

diseño web

jueves, 8 de abril de 2010

DOCUMENTO

Un documento es la prueba de un hecho o acto realizado en el ejercicio de las funciones o actividades de una persona, institucion pública o privada, registrado en una unidad de información de cualquier tipo de soporte como papel, cintas, discos magnéticos, películas, fotografías, retratos, esculturas etc.

Documento estructurado
Son aquellos que tienen una estructura predefinida que no varía, y los datos que contienen están claramente identificados, este tipo de documentos tienen etiquetas las cuales sirven como encabezados para la recuperación de información

Documento no estructurado
Son aquellos que no tienen una estructura claramente establecida.

Documento semiestructurado
Son documentos mixtos que contienen parte estructurada y parte no estructurada.

Documento digital
Es el que contiene información codificada en forma de dígitos binarios de 1 y 0 que puede ser capturada, almacenada, analizada, distribuida y presentada únicamente por medio de una maquina.
Ejemplo un CD de música un documento en una memoria USB

Documento Electrónico
Es un documento que necesita de una dispositivo eléctrónico para su optima visualizacion para ser leído o reproducido mediante el auxilio de detectores de magnetización.
Ejemplo: un rollo de fotografías, una microficha

Documento virtual
Es un documento digital que simula un documento real, como por ejemplo un libro Virtual con el cual se pueden pasar las paginas desde una pantalla.

EXTRACCION DE INFORMACION

La extracción de información consiste en un procedimiento automatizado que busca información muy concreta en colecciones de documentos, ya sean bases de datos, tesauros, repositorios, etc. y detectar la información relevante o importante para extraerla y mostrarla al usuario en un formato determinado que sea útil, de interés y fácil acceso para agilizar la búsqueda y recuperación de información

DEFINICIONES DE INFORMACION Y RECUPERACION

INFORMACION: Acción y efecto de informar. / Comunicación o adquisición de conocimientos que permiten ampliar o precisar los que se poseen sobre una materia determinada. / Conjunto de datos numéricos, alfabéticos y alfanuméricos ordenados con sentido y útiles para algo o alguien.

En conclusión la información son datos ordenados que al ser transmitidos o recibidos por una o varias personas, una maquina u objeto le son de interés o utilidad a los mismos, esto quiere decir que no se puede llamar información a todos los datos, ya que si estos datos no son útiles a una persona o cosa no se pueden llamar información.

RECUPERACION: Acción y efecto de recuperar o recuperarse. / Adquisición de una cosa que antes se tenía o lo que se había perdido.

La recuperación en este ámbito tiene que ver con la encontrar, hallar o localizar información o datos que me lleven a generar información





La recuperación de información es un conjunto de tareas por el cual un usuario accede a uno o varios recursos de información que le son de utilidad y le ayuden a resolver una necesidad de información.

OBJETIVOS DE LA RECUPERACION DE INFORMACION

-PERMITIR CONSULTAS EN LENGUAJE NATURAL
-BUSCAR UN MECANISMO IDONEO PARA EVALUAR Y AJUSTAR LA RELACION ENTRE:
*DOCUMENTOS RECUPERADOS
*CONSULTA FORMULADA
ADEMAS HAY QUE TENER EN CUENTA LOS PRINCIPALES PROBLEMAS AL MOMENTO DE LA BUSQUEDA COMO LO SON:
-PRESENTAN LOS TEMAS SIN DELIMITAR
-PRESENTAN DEMANDAS EXCESIVAMENTE IMPRECISAS
-NO SON CONSIENTES DEL TRABAJO QUE LLEVA LA BUSQUEDA

lunes, 22 de marzo de 2010

Modelos para la Recuperación de Información.

El diseño de un SRI se realiza bajo un modelo, donde queda definido “cómo se obtienen las representaciones de los documentos y de la consulta, la estrategia para evaluar la relevancia de un documento respecto a una consulta y los métodos para establecer la importancia (orden) de los documentos de salida” (Villena Román, 1997). Existen varias propuestas de clasificación de modelos, una de las síntesis más completas la realiza Dominich en cinco grupos (Dominich, 2000):


Baeza-Yates clasifica los modelos de recuperación de información con base en la tarea inicial que realiza el usuario en el sistema: (1) recuperar información por medio de una ecuación de búsqueda (retrieval) que se inserta en un formulario destinado a ello, o (2) dedicar un tiempo a consultar (browse) los documentos en la búsqueda de referencias (Baeza-Yates, 1999), dando entrada en su clasificación al hipertexto [CON, 1988] [NIE, 1990], modelo en el cual se basa la web [BER, 1992].

Este mismo autor divide a los modelos basados en la recuperación en dos grupos: clásicos y estructurados. En el primero de ellos incluye a los modelos booleano, espacio vectorial y probabilístico. Posteriormente, presenta una serie de paradigmas alternativos a cada modelo: teoría de conjuntos (conjuntos difusos y booleano extendido), algebraicos (vector generalizado, indización por semántica latente y redes neuronales), y por último, probabilísticos (redes de inferencia y redes de conocimiento); los modelos estructurados corresponden a listas de términos sin solapamiento y a nodos próximos (son modelos escasamente difundidos). Los modelos basados en la navegación entre páginas web son de tres tipos: estructura plana, estructura guiada e hipertexto.

El primero es una simple lectura de un documento aislado del contexto, el segundo incorpora la posibilidad de facilitar la exploración organizando los documentos en una estructura tipo directorio con jerarquía de clases y subclases y el tercero se basa en la idea de un sistema de información que de la posibilidad de adquirir información de forma no estrictamente secuencial sino a través de nodos y enlaces (Baeza-Yates, 1999). Es también Baeza-Yates quien proporciona una clasificación adicional de estos modelos de recuperación de información, realizada en función de la modalidad de consulta y de la vista lógica de los documentos:



BIBLIOGRAFIA:

Tanto Baeza-Yates (Baeza-Yates, 1999) como Villena Román (Villena Román, 1997) llevan a cabo una presentación detallada de cada uno de los modelos, siendo también interesante la lectura de Grossman y Frieder [GRO, 1998], para conocer las alternativas a los modelos clásicos.

sábado, 20 de febrero de 2010

Recuperacion de Informacion

la recuperacion de informacion se puede ver como un subproceso de la gestion del conocimiento, son un conjunto de tareas, procesos automatizados mediante los cuales un usuario localiza y accede a recursos de informacion relevantes que ayuden a resolver una necesidad de información

viernes, 5 de febrero de 2010

Concepto de recuperación de información.


Cuando un usuario se plantea la necesidad de obtener nueva información sobre un asunto o materia de su interés, está manifestando una carencia, una situación irregular de sus estructuras mentales y cognitivas. Belkin, Oddy y Crofts han hablado de ASK, o "Anomalous State of Knowledge" (BELKIN, ODDY y CROFTS, 1982), un estado mental de incertidumbre que mueve al individuo a desarrollar una serie de acciones para salir de ese estado. Ingwersen deduce la existencia de un problema personal de espacio, "problem space" (INGWERSEN, 1992), por la diferencia entre el estado actual del conocimiento del usuario, y del estado que sería necesario para solucionar algún tipo de necesidad planteada. La respuesta a este tipo de situaciones es un conjunto de actividades que desarrolla el individuo para salir del estado anómalo, o para solucionar su problema de espacio, actividades que están íntimamente relacionadas con la adquisión de nueva información, y con el proceso comunicativo pertinente.

La recuperación de información es el conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de información que son pertinentes para la resolución del problema planteado. En estas tareas desempeñan un papel fundamental los lenguajes documentales, las técnicas de resumen, la descripción del objeto documental, etc. (CROFT, 1987) Todos estos factores ya han sido tratados exhaustivamente por la bibliografía especializada, por lo que no resulta necesario insistir sobre ellos en este lugar. Sin embargo, si es necesario recordar, como se ha señalado en la introducción, que la informatización de estas tareas se engloba dentro del campo de la Documentación Automatizada o Informática Documental.

Proceso genérico de recuperación de información













En principio, la recuperación de información engloba las acciones encaminadas a identificar, seleccionar y acceder a los recursos de información útiles al usuario, sin perjuicio de otras acepciones del concepto, en las que puede profundizarse utilizando la bibliografía correspondiente (ROBERTSON, 1977). Como puede deducirse del capítulo anterior, el objeto documental se ha organizado y representado, utilizando una serie de normas y convenciones, en un soporte informático, mediante el diseño, creación y mantenimiento de bases de datos (RIJSBERGEN, 1979). La siguiente fase lógica es la recuperación del contenido de las mismas, siguiendo unos criterios de pertinencia. En el ámbito de la documentación automatizada, la recuperación de información adoptará la forma del acceso, selección y explotación de las bases de datos, utilizando diferentes técnicas.

El planteamiento de la recuperación de información (Information Retrieval, IR), en su moderno concepto y discusión, hay que buscarlo en la realización de los test de Cranfield (ELLIS, 1990: 1-17), y en la bibliografía generada desde ese momento y referida a los mecanismos más adecuados para extraer, de un conjunto de documentos, aquellos que fuesen pertinentes a una necesidad informativa dada. Las propias características de las entidades del mundo real, así como del tratamiento al que son sometidas, proveen a la representación de las mismas de un cierto grado de indefinición. Es decir, que el proceso documental, por muy alto nivel de perfección que pueda alcanzar, siempre introduce un factor de distorsión en la representación del documento. Si se considera que el acceso al documento se realiza casi por completo utilizando esta representación como intermediario, puede deducirse que los mecanismos en los que se basa la IR no son perfectos, sino que se verán influenciados por ese factor, independientemente de su validez técnica.

Ha sido Blair (BLAIR, 1990: 2-4) quien ha resumido las diferencias entre "data retrieval" (recuperación de datos, RD) e "information retrieval" (recuperación de información, RI), utilizando como criterios las siguientes cuestiones:

1. Según la forma de responder a la pregunta: en RD se utilizan preguntas altamente formalizadas, cuya respuesta es directamente la información deseada. En RI las preguntas resultan difíciles de trasladar a un lenguaje normalizado, y la respuesta es un conjunto de documentos que pueden contener, sólo probablemente, lo deseado, con un evidente factor de indeterminación.
2. Según la relación entre el requerimiento al sistema y la satisfacción de usuario: en RD la relación es determinística entre la pregunta y la satisfacción. En RI es probabilística, a causa del nivel de incertidumbre presente en la respuesta.
3. Según el criterio de éxito: en RD el criterio a emplear es la corrección y la exactitud, mientras que en RI el único criterio de valor es la satisfacción del usuario, basada en un criterio personal de utilidad.
4. Según la rapidez de respuesta: en RD depende del soporte físico y de la perfección del algoritmo de búsqueda y de los índices. En RI depende de las decisiones y acciones del usuario durante el proceso de interrogación.

Ha señalado este autor la importancia, en ocasiones ignorada, que tiene el factor de predicción. Predicción por parte del usuario, ya que éste debe intuir, en numerosas ocasiones, los términos que han sido utilizados para representar el contenido de los documentos, independientemente de la presencia de mecanismos de control terminológico. Este criterio de predicción es otro de los elementos que desempeñan un papel fundamental en el complejo proceso de la recuperación de información.