BÚSQUEDA EFECTIVA Y EFICIENTE EN INTERNET

Por: Luis Guillermo RESTREPO RIVAS © 1999 - 2008
http://LuisGuillermo.com


1. Qué puedo encontrar en Internet ?

El contenido de información y otros recursos existentes en Internet es cada vez más gigantesco. A veces se caracteriza a Internet como la biblioteca mundial de la era digital, pero esa comparación no es muy ajustada a la realidad. Internet, y en particular su colección de recursos multimediales conocidos como el "Web" no fué diseñada para la publicación y recuperación de información de manera "organizada" como lo han sido las bibliotecas.
Internet ha evolucionado en lo que podemos considerar como un repositorio caótico de todo tipo de información en forma digital: textos cortos, libros, datos en bruto, propaganda comercial, video, audio, documentos efímeros, documentos duraderos, noticias, información gratuita, información vendida, información trivial, información valiosa y útil, etc. etc. Más que una biblioteca , es una gran plaza de información y comunicación.

En Internet se halla prácticamente todo tipo de información, tanto en forma textual como en imágenes, pequeños videos, archivos de sonido y música. Cosas como: noticias, información sobre eventos, documentos técnicos y científicos, temas de deportes y entretenimiento, catálogos de productos, información sobre personas (páginas personales), información oficial sobre empresas y otras entidades, información turística, información policial, información de servicio a la comunidad, información estadística, etc. etc. Es casi imposible hacer una lista exhaustiva de los tipos de información que existe.

Cada vez habrá más y más información en Internet, debido a varios factores:

-la facilidad de publicar información debido a la existencia de programas cada vez mejores, tanto para elaborar documentos nuevos para el "Web" como para convertir documentos preexistentes que están en otros formatos.
-El bajo costo de publicación y difusión comparado con los costos en medios más tradicionales de información.
-El dinamismo e interactividad del hipertexto y los hipermedios, comparado con medios más tradicionales de información y comunicación.
-El atractivo de lograr una difusión mundial de la información.
-El creciente número de personas con acceso a Internet.
-La facilidad cada vez mayor para buscar o recibir la información, debido a herramientas de búsqueda, selección y difusión cada vez más eficaces en la red.
-La mejora creciente en la infraestructura física de las redes que conforman a Internet, en lo referente a mayor ancho de banda y mejoras en los equipos servidores.

Todos estos factores son incentivos para publicar en Internet, y van teniendo el efecto de que, en el futuro, la información que no esté en la red mundial, para fines prácticos será como si no existiera, porque cada vez menos gente se tomará la molestia de buscarla en otro sitio.


2. Qué es un Buscador o "motor de búsqueda" y cómo funciona ?

Son sitios dentro del Web especializados en servirnos como herramientas para la b.squeda de informaciÛn y dem.s recursos que se pueden encontrar en Internet. Es utilizando esos servicios que podemos buscar y traer informaciÛn hacia nosotros, sobre el tema en el que estemos interesados.

Por lo general, un Buscador, ejecuta periódicamente un programa que se va comunicando con los sitios "Web" cuya dirección previamente ha sido inscrita en su base datos, y trae hacia sí las páginas que encuentra, siguiendo también consecutivamente los enlaces hacia otras páginas. Examinando el contenido de cada página recuperada, el programa construye una gran base de datos a manera de índice con palabras, frases o descriptores y la dirección de la páginas donde aparecen esos elementos.

Los Buscadores se pueden clasificar en dos tipos según manejen o no una clasificación temática cuando registran una nueva página en su base de datos:

-Buscadores que indexan el texto completo
-Buscadores que usan clasificaciones temáticas (llamadas taxonomías u ontologías)

La mayoría de los buscadores, actualmente, pertenecen al primer tipo. El principal ejemplo del segundo tipo de buscador es YAHOO.

Hay que tener presente que ante el crecimiento constante de Internet, ningún buscador es capaz de catalogar o indexar absolutamente todo el contenido. Por ejemplo, en un estudio publicado en la revista SCIENCE en abril de 1998, por investigadores del NEC Research Institute (Princeton, EE.UU.), para una cantidad estimada de unos 320 millones de páginas accesibles por esa época, cada uno de los mejores buscadores solo alcanzaban a cubrir, a lo sumo, una tercera parte de esa cantidad de páginas. Hay que aclarar que el número de páginas está en constante crecimiento, y que el número de páginas "posibles" es practicamente ilimitado, si pensamos que hay producción de páginas "al vuelo", que se generan en el momento de consultar, por ejemplo una base de datos o el mismo buscador: la pagina mostrada no es preexistente, sino que se genera en el momento de obtener o calcular los resultados de la consulta.

La mayoría de los buscadores construyen su base de datos o índice usando programas de computador que exploran el "web" y de manera automática van actualizando las bases de datos principalmente por la adición de nuevos sitios matriculados por los autores, o descubiertos por el programa al seguir los hiperenlaces que hay en cada página.

Existen algunos servicios de búsqueda cuyas bases de datos tienen alguna escogencia y evaluación por parte de humanos, procurando que los documentos que indexa sean de calidad o autoridad en cuanto a la información que poseen. Obviamente, dado el tamaño del "web" esta labor "manual" es demasiado dispendiosa, y cada vez lo será más.

Cada herramienta de búsqueda es diferente y tiene su utilidad en ciertos casos. Se diferencian principalmente en:

  1. El tamaño o cubrimiento que tienen del "web".
  2. En la manera como indexan los documentos: texto completo o clasificación temática
  3. En el tipo de elemtos, como páginas, imágenes, sonidos, videoclips, etc. que catalogan.
  4. En las opciones que dan al usuario para expresar la búsqueda deseada y para restringirla o precisarla buscando aumentar la relevancia de los documentos hallados, de manera de no perder tiempo en documentos no pertinentes o de escaso valor o autoridad.
Además, existen "multibuscadores" o "metabuscadores", que no manejan bases de datos o 'ndices propios, sino que al recibir una consulta invocan simult.neamenta a otros varios buscadores.

También existen programas que se instalan localmente en nuestro computador y ejecutan búsquedas invocando buscadores del "web". Uno de estos programas es el WebFerret que es un multibuscador disponible en versión gratuita (http://www.ferretsoft.com/).


3. Cómo busco información sobre un tema ?



3.1 Dónde buscar

Primero hay que tener en cuenta que la información en Internet, como se mencionó antes, es de tal variedad en tipos, formatos y orígenes, que aún presenta algo de caos para quien, acostumbrado a buscar información en una biblioteca, espera hallar unos índices o catálogos perfectamente organizados que lo conduzcan a documentos o bases de datos plenamente relevantes a la consulta que está realizando.

Para permitir la búsqueda en la variada mezcla de información residente en Internet, se han desarrollado los llamados Buscadores o "Motores de Búsqueda", los cuales son las herramientas más conocidas para explorar Internet.

La mayoría de las personas buscan información en Internet usando solamente los llamados Buscadores o "Motores de Búsqueda", que son herramientas diseñadas para esa labor, sin embargo, para explotar al máximo el potencial de Internet, además de los Buscadores y de la "Web", debemos explorar en otros recursos de Internet, como los grupos de interés que funcionan con Listas de Distribución de Correo, y en los llamado "Grupos de Noticias".
A pesar de lo buenos que puedan ser los Buscadores, en estudios realizados se ha demostrado que ni aun los mejores de ellos cubren la totalidad de los millones de páginas que hay en la "Web". Además los grupos de Interés, ya sea en Listas de Correo o en Grupos de Noticias, ofrecen la posibilidad de hacer consultas a otras personas que nos pueden resolver preguntas o conducirnos a otras fuentes de información. También, muchos de estos grupos de interés conservan archivos de todos los tópicos que han tratado a través de los años, y la información que buscamos, a lo mejor ya ha sido tratada anteriormente por alguno de estos grupos.

Existen también en Internet documentos donde se han recopilado las Preguntas y Respuestas (PyR) más frecuentes sobre muchos temas (conocidas también por sus siglas en inglés: FAQ: Frequently Asked Questions). En esos documentos se encuentra la información básica sobre muchos temas.

Antes de existir la "Web", que organiza información con un sistema de enlaces denominado "hipermedia" o "hipertexto", en Internet se desarrolló una manera de organizar información en forma de "menúes" y "submenúes", o sea listas y sublistas de temas. Este sistema se denominó "Gopher", y aunque ha sido en gran medida desplazado o remplazado por la "Web" con su hipermedia, aún queda alguna información en "Gophers", que no debemos pasar por alto para algunas búsquedas que no hayan sido fructíferas con los otros recursos.
También nació en Internet, antes de la "Web", una manera de organizar bases de datos de información, siguiendo normas bibliográficas, que se denominó WAIS. Este es pues otro recurso de información, que aunque mucho menor en su utilización que la "Web", podemos explotar a nuestro servicio.

En síntesis, para buscar información de Internet podemos:

3.2 Tácticas de búsqueda y recomendaciones prácticas

Hallar el documento, página o sitio, que Ud. desea, en el "web", puede parecer incríblemente dificil, en parte debido al tamaño gigantesco, que facilmante puede estar por los 400 millones y en constante aumento, pero principalmente porque no está indexado con un vocabulario estándar de descriptores como se usa en una biblioteca, o en unos campos predefinidos como en el caso de una base de datos.

Al buscar en el "web" Ud. está buscando texto (o tal vez otro tipo de material), en documentos que alguna persona (o algún programa de computador) seleccionó para incluirlo en la base de datos o índice de la herramienta de búsqueda que Ud. está usando. El éxito de la búsqueda depende al menos de cuatro factores importantes:

  1. Su habilidad para crear coincidencias exactas entre los términos que Ud. busca y los términos realmente usados en los documentos que Ud. espera encontrar. Qué tanto acierta Ud. en "suponer" las palabras o frases realmente usadas en las páginas que potencialmente le interesan.
  2. La manera como el buscador indexa los documentos: texto completo o clasificación temática.
  3. El tipo de documentos indexados o catalogados en la(s) base(s) de datos usadas por su herramienta de búsqueda. Por ejemplo: páginas, imágenes, sonidos, videoclips, etc.
  4. El tamaño o cubrimiento de la base de datos de la herramienta de búsqueda, respecto al universo total de documentos existente en el "web".
  5. Las características particulares de la herramienta de búsqueda. Qué tan potente y flexible es para permitir precisar los criterios de búsqueda.Qué opciones que dé para expresar y precisar la búsqueda, para aumentar la relevancia de los documentos hallados, y no perder tiempo en documentos poco importantes.
Ud. tiene que imaginarse las variantes, sinónimos, términos, frases y temas altamente relacionados con lo que desee hallar. Elementos que Ud. piensa que tienen alta probabilidad de aparecer en documentos que serían de su interés. Si se usan palabras o frases muy comunes, se pueden hallar muchísimos documentos irrelevantes que pueden contener esas palabras o frases pero no son del tema que Ud. busca.

Quienes tienen más experiencia búsquedas en el "web" usan al menos dos o tres herramientas de búsqueda regularmente, y han dominado sus características avanzadas y modos de uso u opciones particulares. Es un sabio consejo usar más de una herramienta o buscador, ya que los resultados varían grandemente entre ellos, debido en parte a que cada uno cubre subconjuntos diferentes del "web" total. Al usar varios, estamos aumentando el cubrimiento o cantidad de documentos considerados.

Damos a continuación algunas ayudas pr.cticas, aprendidas por la experiencia, que nos dan m.s posibilidades de hallar la informaciÛn que buscamos en Internet.

3.2.1 Para usar eficientemente un Buscador, recomendamos leer sus instrucciones propias (que figura frecuentemente bajo "help"), ya que aunque el uso fundamental o b.sico de todos es muy similar, para un uso mas avanzado la manera de utilizar cada uno de ellos es diferente. Es conveniente dominar las opciones y sintáxis de uno, dos , o tres buscadores buenos para poder hacer consultas bien precisas.

3.2.2 Los Buscadores varÌan en cuanto a la manera de indicarles que busquen una palabra, todas las palabras o una frase completa. Por ejmplo, en unos de ellos hay que encerrar entre comillas la frase para que la tome como tal y no recupere páginas que tienen esas mismas palabras pero en otro orden; en otros se selecciona o marca una opciÛn que le indica al buscador como debe tomar las palabras: alguna de ellas, todas en cuelquier orden o como frase. En otros buscadores hay que preceder cada palabra del signo más (+) para que tome cada palabra. Para estas funciones otros buscadores admiten operadores booleanos: Y ("and"), O ("or"), etc. Su grado de sofisticaciÛn varÌa.

3.2.3 Los buscadores grandemente en cuanto a sus capacidades para indicarles que limiten la b.squeda a p.ginas o sitios "Web" que tenegan cierta caracterÌstica. Algunos no dan opciones y por lo tanto búscan en toda su báse de datos, otros permiten restringir la b.squeda aquellas páginas que posean una de las siguientes caracterÌsticas o una combinación de ellas:

3.2.4 Los artÌculos tÈcnicos y cientÌficos a veces se encuentran en otros sitios fuera de los sitios propios de las revistas o publicaciones donde aparecieron. Por ejemplo, en las p.ginas personales de los autores.

3.2.5 Muchas de las p.ginas personales, residen en los servidores de las instituciones donde las respectivas personas est.n afiliadas, como universidades, empresas, u otro tipo de organizaciones. Otra posibilidad muy usada son los servidores que dan alojamiento gratuito de páginas, como GEOCITIES y TRIPOD.

3.2.6 A algunos buscadores se les puede indicar que traigan solamente p.ginas que tengan las palabras buscadas en el titulo, no en el cuerpo de la p.gina.

3.2.7 Algunos buscadores reciben la direcciÛn de un sitio o p.gina, conocido también como "URL", y buscan cuales otras p.ginas tienen enlaces hacia esa direcciÛn.

3.2.8 Algunos buscadores permiten que seleccionemos qué tan resumidos o extensos deseamos los resultados de la búsqueda: que sólo muestre los "URL", o los tÌtulos de las p.ginas halladas, o las primeras lÌneas, etc.

3.2.9 Si tenemos una consulta sobre un concepto mas o menos específico, pero no nos interesa mucho el tema más amplio al cual pertenece la consulta, por ejemplo: en un momento dado nos pueden interesar unos datos concretos sobre cierto modelo de cámara fotográfica, pero no queremos involucrarnos en temás más amplios de fotografía. En tales casos nos podemos suscribir temporalmente a una una lista de correo que trate el tema. Una vez suscritos podemos hacer la consulta a la lista, y desuscribirnos de la lista unos cuantos días después, cuando percibamos que ya no están llegando más respuestas a nuestra pregunta. Es recomedable, antes de hacer este procedimiento, buscar si existe un archivo de los mensajes que se han cruzado en la lista, o un archivo de de las Preguntas Frecuentes (FAQ) del tema, pues en caso de que exista alguno de estos dos recursos, debemos buscar primero en el o en ellos porque tal vez nuestra inquetud ya ha sido tratada antes. Y obviamente, primero que todo, debemos buscar en la "Web".

3.2.10 Cuando sabemos de la existencia de cierta información en Internet, pero vemos que su acceso tiene algun costo, o alguna restricción, no debemos desanimarnos, pues es posible que la misma información o información muy similar esté disponible totalmente gratis o sin la mencionada restricción, en la misma red, en otro sitio. Para esto hay que agudizar el ingenio, buscando, por ejemplo palabras o frases del documento o tema que nos interesa, e incluso, en el caso de reportes o artículos concretos, el título mismo de la publicación, o el autor, las organizaciones a las que está vinculado el autor, etc.

3.2.11 Podemos también atrevernos a adivinar la dirección "Web" o URL de una organización o empresa que nos interesa, en caso de que no la hallemos. Es frecuente que comience por "www", aunque no siempre, puede ser otro nombre del computador servidor, y luego, separada por un punto, el nombre de la entidad o una abreviatura o sigla, luego de otro punto, hay por lo general tre posibilidades, según el país en el cual esté registrado su dominio

Hay paises, como Colombia, que utilizan tres letras de dominio antes de las dos letras que identifican al país: com = comercial, edu = educativo, org = organización.
En el caso de Estados Unidos, casi no se usan las dos letras ("us") del país.
Ejemplos: www.eafit.edu.co, www.presidencia.gov.co

Hay paises, como Japon y Gran Bretaña, que utilizan solamente dos letras para ese dominio antes de las dos letras del país: co = comercial, ac = académico, or = organización.
Ejemplos: www.seiko.co.jp, www.napier.ac.uk, www.metromms.co.uk

Hay pasises, como España, Suecia, Holanda, Dinamarca, Italia y Alemania, que no utilizan tales partículas antes de las dos letras del país.
Ejemplo: www.cwi.nl

En otros casos, entre la "www" y las dos letras del país hay más de una parttícula, lo cual hace muy difícil asertar., ej: www.lcc.uma.es

Segun estas indicaciones, supongamos que existiera una universidad cuyo nombre o sigla fuera "kuto", podríamos suponer que su probables URL sería:

-Si está registrada en el dominio colombiano: www.kuto.edu.co
-Si está registrada en el dominio japonés: www.kuto.ac.jp
-Si está registrada en el dominio español: www.kuto.es
-Si está registrada en el dominio estadounidense: www.kuto.edu
-Si está registrada en el dominio alemán: www.uni-kuto.de (este uso de "uni-" es muy frecuente y particular en Alemania para las universidades)

3.2.12 Cuando está particularmente difícil hallar alguna información, antes de darnos por vencidos y concluir que tal información definitivamente parece no estar en el "web", debemos avivar nuestra imaginación y creatividad para intentar buscando en otros recursos de la red y haciendo búsqueda más indirectas aunque parezcan un poco alocadas. Ejemplos:

SQue tal si buscamos un número telefónico, pero no en un "directorio telefónico" del "web" sino simplemente en páginas del "web", podemos hallar así páginas donde se menciona la empresa que tiene ese número telefónico. Obviamente pueden resultar otras páginas donde aparezcan esas cifras y no tengan nada que ver con nuestro "numero telefónico"
SQue tal imaginarnos frases que "probablemente" puedan aparecer en los documentos que estamos buscando, y buscar con esas frases o con una parte de ellas, indicandole al buscador que considere esa secuencia de palabras completa como una frase. Por ejemplo, si nos interesan las características de las cooperativas, y buscamos "cooperativa" hallaremos demasiados documentos que se refieren a cooperativas particulares y otros donde aparece la palabra como adjetivo. Entonces, que tal si buscamos las frases como:

"una cooperativa funciona"
"las cooperativas buscan"
"una cooperativa se caracteriza"
"las cooperativas son"
"las coopeartivas tienen por"
"el objetivo de una cooperativa"