METADATO







Resulta evidente la necesidad de establecer mecanismos que permitan una descripción más exhaustiva de los recursos electrónicos. En este trabajo se propone como solución el uso de metadatos. Por ese motivo se estudia el concepto de metadato con el fin de determinar tanto su campo de acción como los diferentes presupuestos subyacentes en este.

Palabras clave
Recuperación de información; Metadatos; Objetos; Descripción de recursos.

QUÉ ES UN METADATO?

Los metadatos, en sí, no suponen algo completamente nuevo dentro del mundo bibliotecario. Según Howe (1993), el término fue acuñado por Jack Myers en la década de los 60 para describir conjuntos de datos. La primera acepción que se le dio (y actualmente la más extendida) fue la de dato sobre el dato, ya que proporcionaban la información mínima necesaria para identificar un recurso. En este mismo trabajo se afirma que puede incluir información descriptiva sobre el contexto, calidad y condición o características del dato.


La evolución del término desde esta fecha hasta 1997 ha sido descrita por Lange y Winkler (1997) revelando que no existen demasiadas novedades.
Atendiendo a la definición antes mencionada, podríamos considerar la catalogación como un proceso de generación de metadatos. Teniendo en cuenta que la mayoría de sistemas de metadatos ha sido creada no sólo por profesionales de la información sino también por informáticos, diseñadores de programas, técnicos de sistemas, etc., la utilización de este término puede conllevar una carga excesiva (por ejemplo, reglas de catalogación, clasificaciones de materias...). El concepto de metadato se utiliza como un término neutral (Caplan, 1995), que permite alejarnos de posibles prejuicios por parte de todas aquellas personas menos cercanas al mundo bibliotecario, y que coloca a todos los grupos profesionales implicados en su desarrollo en una posición de igualdad.

Por otra parte, y si se analiza desde el punto de vista de la información distribuida, metadato, como concepto, aporta más información que el término catalogación, tal y como veremos más adelante.


El concepto de metadato. Algo más que descripción de recursos electrónicos

Incidiendo sobre el aspecto básico de la definición, otros autores amplían el concepto de “dato sobre el dato” al afirmar que incluyen información sobre su contexto, contenido y control así como todo lo que tenga que ver con “el dato” (Pasquinelli, 1997).

En el informe de Biblink* (Heery, 1996) el metadato se define como información sobre una publicación en oposición a su contenido. No sólo incluye descripción
bibliográfica, sino que también contiene información relevante como materias, precio, condiciones de uso, etc.

Ercegovac (1999), por su parte, afirma que un metadato describe los atributos de un recurso, teniendo en cuenta que el recurso puede consistir en un objeto bibliográfico, registros e inventarios archivísticos, objetos geoespaciales, recursos visuales y de museos o implementaciones de software. Aunque puedan presentar diferentes niveles de especificidad o estructura, el objetivo principal es el mismo: describir, identificar y definir un recurso para recuperar, filtrar, informar sobre condiciones de uso, autentificación y evaluación, preservación e interoperabilidad.


En resumen, la mayoría de funciones descritas por estos autores las podemos encontrar agrupadas en el trabajo de Lannela y Waugh (1997):
• Resumir el significado de los datos
• Permitir la búsqueda
• Determinar si el dato es el que se necesita
• Prevenir ciertos usos (PICS**)
• Recuperar y usar una copia del dato
• Mostrar instrucciones de cómo interpretar un dato
• Obtener información sobre las condiciones de uso
  (Derechos de autor)
• Aportar información acerca de la vida del dato
• Ofrecer información relativa al propietario/creador
• Indicar relaciones con otros recursos
• Controlar la gestión


Desde hace varios años, los profesionales de la información tienen que afrontar el reto de solucionar los problemas de recuperación de información provocados por la aparición de las bibliotecas digitales y el aumento vertiginoso de la información en formato electrónico.
Como resultado de este crecimiento, cada vez es más difícil el proceso de localizar información. Se han propuesto distintos mecanismos capaces de, por un lado, superar las limitaciones de los sistemas de recuperación basados en la navegación hipertextual – recordemos que el Web no estaba planeado para permitir esto (Husby, 1997) – y, por otro, facilitar la recuperación de la información a texto completo. Las propuestas se han materializado en tres grandes líneas de acción.


1. Índices compilados manualmente
2. Bases de datos creadas por robots o arañas
3. Métodos de indización distribuida
Vamos a analizar detenidamente estos tres modelos.


Índices compilados manualmente

Se trata de grandes bases de datos donde los usuarios o creadores de las páginas Web sugieren su ubicación dentro de unas categorías mediante un formulario. En la mayoría de ocasiones esta organización es la que se traslada directamente al servicio (caso de Terra). En Yahoo, por el contrario, son profesionales quienes las evalúan, organizan y clasifican en la categoría adecuada.
Para realizar la consulta, un gestor de páginas Web se encarga de hacer de pasarela entre la base de datos y el usuario que consulta (Montes Hernández, 1999).

Obviamos los servicios que se engloban dentro del grupo de los “meta buscadores” ya que no se pueden considerar como un sistema de información completo (no realizan tareas de indización, y el trabajo de recuperación de la información lo llevan a cabo por medio de llamadas a procesos generados por otros sistemas).

En cuanto a la forma de realizar la búsqueda, la información está clasificada en varios grupos conceptuales encabezados por términos generales, y cada grupo se encuentra subdividido, a su vez, en más subcategorías a través de las cuales se va descendiendo en niveles de especificidad.


Bases de datos creadas por robots o arañas

Partiendo del esquema clásico: una interface, un motor de búsqueda, y una base de datos, los buscadores utilizan un robot para la alimentación automática de su base de datos. El robot – también llamado araña – es un programa de ordenador que está diseñado para recorrer de forma automática la estructura hipertexto de un servidor Web con el fin de alimentar bases de datos textuales a partir de documentos HTML, así como otro tipo de formatos de edición electrónica, distribuidos en diferentes servidores.

Tomando como punto de partida una URL inicial, el robot recupera un fichero en formato HTML que transfiere al sistema local, de forma similar a como lo hace un cliente Web, pero, una vez recuperado, en lugar de proceder a su visualización, se sirve de él para generar nuevos registros en una base de datos. Cada entrada de esta base de datos recogerá la URL completa del documento y una serie de palabras significativas extraídas, bien de los fragmentos con un mayor contenido informativo (,

, etc.), o bien a partir de su frecuencia de aparición en el documento (Harvest, 2000).



Una vez indizado el documento, el robot identifica las referencias hipertextual que contiene y que nos dirigen a otras unidades informativas en el mismo o en otros servidores de la Red. De forma recursiva, el robot recupera los documentos referenciados en estos nexos, procediendo a su indización, obtención de nuevas referencias, etc.


Complementando al robot encargado de la extracción/ indización de documentos, encontraremos un motor de búsqueda que permite interrogar estas bases de datos desde los clientes WWW mediante programas de distinta complejidad accesibles mediante la especificación CGI*. Evidentemente las estrategias de selección de URLs iníciales, extracción de contenido de los documentos y asignación de valores a estos términos de indización están abiertas a numerosas posibilidades, y cada implementación ha podido optar por distintas alternativas.

Métodos de indización distribuida

El ejemplo clásico de este sistema lo encontramos en el servicio Harvest, que surge a finales de 1993 dentro de la línea de trabajo del IRTF-RD (Internet Research Task Force Research Group - Resource Discovery). Si bien es posible identificar similitudes con Aliweb*, Harvest no se basa en un “esfuerzo humano distribuido”, sino en una arquitectura hardware y software repartida entre distintos servidores Web. Distinguiremos dos elementos principales en el modelo Harvest:

– Gatherers: un software instalado en un servidor Web que periódicamente extrae información relativa a los ficheros disponibles (en ese mismo servidor) para la comunidad de usuarios de Internet.
– Brokers: recuperan automáticamente la información extraída por uno o más gatherers y la integran en índices sobre los que se podrán lanzar ecuaciones de búsqueda.
– La comunicación entre brokers y gatherers utiliza como protocolo un sistema de metadatos denominado SOIF(Summary Objetc Interchange Format). En la actualidad se está trabajando para que el fichero de intercambio se genere también en formato RDF (Resource Description Format) (WebTop, 2000).

La solución al problema

Independientemente del sistema utilizado para alimentar la base de datos, siempre nos encontraremos con varios problemas. Por un lado los servicios de búsqueda recuperan gran cantidad de documentos que, en la mayoría de los casos, no satisfacen las necesidades de información al no ser pertinentes. Y esto es debido a que los documentos de la Red carecen de datos suficientes para la descripción (Gill, 1998; Ortiz-Repiso, 1999).

* Common Gateway Interface, especificación técnica que posibilita la mayor interacción entre clientes y servidores WWW. La principal prestación de CGI se centra en la generación de documentos HTML de forma dinámica, es decir, enviando al cliente un documento previamente inexistente. El documento puede consistir en una página HTML, una imagen, texto plano, etc., pudiendo incluir información procesada por el servidor como resultado de un cálculo o de la consulta a una base de datos.

* El modelo Aliweb propone que sean los administradores de servidores web quienes alimenten las bases de datos. Para ello, el administrador de cada servidor debe generar un fichero en un formato estándar (IAFA) donde incluiría el nombre de cada uno de los ficheros que forman su web así como una serie de palabras claves que identifiquen su contenido.

Gran parte de consultas realizadas sobre un motor de búsqueda cualquiera de la Red genera una excesiva cantidad de ruido en la recuperación a menos que el usuario sea capaz de formular complejas ecuaciones de búsqueda. Aun así, el nivel de precisión es relativamente bajo (Olvera Lobo, 2000). Por ejemplo, a mediados de agosto de 2000, la empresa británica WebTop hizo pública  una encuesta según la cual el 82% de los internautas británicos no lograba encontrar la información que buscaba en la Red (WebTop, 2000).
El hecho de que la mayoría de páginas Web apenas utilice descripciones básicas para informar del contenido de las mismas (The search engine report, 1997), así como las limitaciones de los sistemas de recuperación a texto completo utilizados en la actualidad, imposibilita acceder de forma directa e instantánea a los documentos por campos concretos (autor, instituciones, materias...).

A esto hay que sumar que gran parte de motores de búsqueda usa métodos de ponderación poco eficaces  bien por las restricciones del software utilizado en la recuperación, bien por la pobre implementación de sus sistemas de indexación – lo que repercute en una baja tasa de eficiencia (Husby, 1997).

Por otra parte hay que reseñar la sobrecarga de tráfico en la Red, que causa, además del constante deambular de las arañas (Koster, 1995), la necesidad que los usuarios realicen gran cantidad de búsquedas en un mismo servicio hasta encontrar la información deseada (Elsen, 1998; NetGambit, 1999).

Una de las soluciones propuestas, los agentes inteligentes, no es capaz de resolver tampoco estos problemas. Para que uno de estos programas funcione correctamente debe generar una pequeña base de conocimiento del entorno que le viene dada por su propia experiencia (generada a partir de las peticiones del usuario y de la información que localiza en la Red) y por la de otros agentes que se comunican con él (Vargas-Quesada; Hípola, 1999).

Si bien es cierto que en cuestiones de recuperación de información los agentes inteligentes pueden resultar más precisos que los motores de búsqueda (Hípola; Vargas- Quesada; Montes Hernández, 1999), el hecho de que su productividad tenga una relación directamente proporcional con el tiempo que están vagando por la Red (con el fin de generar parte de la base de conocimiento antes mencionada) hace que su uso ralentice en exceso el resto de operaciones a realizar en ella. Sin hacer mención que, al igual que los servicios de búsqueda de Internet, los agentes más utilizados hasta ahora tampoco son capaces de realizar búsquedas por campos concretos en documentos a texto completo – ya que éstas se lanzan, en la mayoría de ocasiones, sobre las bases de datos de los buscadores.

A tenor de lo expuesto aquí resulta evidente la necesidad de establecer mecanismos permitan una descripción más exhaustiva de los recursos electrónicos. En la actualidad se cuenta con sistemas de metadatos que pueden ser las herramientas que permitan la realización de estas descripciones. En este trabajo nos centraremos en el estudio del concepto de metadato con el fin de determinar tanto su campo de acción como los diferentes presupuestos subyacentes en este.

0 comentarios:

Publicar un comentario

Ir Arriba