jueves, julio 14, 2005

La indexación del futuro: Google SiteMap.

Descubre la indexación del futuro: Google SiteMap.

Google nos propone lo que va a ser la nueva forma de indexar páginas web.

Los motores de búsqueda como Google y Yahoo, utilizan arañas para recoger la información de las páginas web que hay publicadas en Internet. Una vez tienen la información, la procesan para poder ordenar rápidamente los resultados de búsqueda, en función de un algoritmo determinado, cuando un usuario acude a sus respectivas páginas web e inquiere algún término o alguna frase.

Las arañas de los buscadores visitan periódicamente las páginas web que están publicadas en Internet y actualizan automáticamente la información acerca de su contenido.

Hasta ahora, las arañas entraban en el directorio raíz de un dominio, buscaban el fichero robots.txt para asegurarse de que el site deseaba ser indexado y luego procedían a visitar todos los enlaces que encontraban en la página web, registrando así todo el contenido de la página.

Google SiteMaps va a revolucionar esta forma de indexar las páginas web.

No es solo que Google ahora lea con más detenimiento los mapas del site que la gente incluye en sus páginas web… no es nada de esto… es una nueva forma radical, de indexar el contenido de las páginas. Google nos propone la creación de un sitemap en XML siguiendo unas especificaciones determinadas que darán toda la información a sus arañas y que les permitirá el acceso a urls que hasta ahora podían haber estado escondidas por diversos motivos ajenos a la voluntad de los webmasters.

Google desea poder acceder a todo el contenido de las páginas web de la forma más fácil y eficiente. Tal como ahora está planteada la indexación de páginas, aun siendo mucho más eficiente que los índices humanos que teníamos antaño (quien no recuerda haber ido a un buscador, haber insertado a mano la definición de nuestro site, las palabras clave por las que deseábamos ser encontrados y la URL del site… pero esto es ya prehistoria internáutica), lo que Google nos plantea ahora es muchísimo mejor.

Todo consiste en poner a la disposición de las arañas un sitemap especial.

Para crear este sitemap, basta con disponer una aplicación que se instala en nuestro servidor (hay versiones para todos los sistemas operativos) y que crea un mapa del site en un formato determinado. La aplicación que nos propone Google puede generar el mapa a partir de las URL de la página web, a partir de los directorios de la página web, o a partir de los logs del servidor (ideal para páginas dinámicas).
Una vez tenemos el sitemap hecho según las especificaciones de Google, podemos darlo de alta en Google SiteMaps. Automáticamente y en menos de 4 horas, Google lo habrá indexado.

Google permite que los webmasters creen un cron que genere un nuevo mapa hasta cada hora (para sites con mucha renovación de contenido) y que haga el submit del mapa automáticamente en Google Sitemaps. De esta manera, las arañas conocerán de inmediato las nuevas páginas creadas y las podrán incorporar al índice.

Ventajas de esta aplicación:

No importa lo mal que tengas la página web a nivel de caminos para las arañas… con un site map creado por el Sitemap Generator, las arañas de Google siempre encontrarán las url de todas tus páginas.

Otra gran ventaja es la rápida indexación del contenido de todo el site. En menos de 4 horas, las arañas han visitado hasta 50.000 enlaces de nuestra página web. Para webs con más URLs, Google recomienda realizar diversos sitemap y disponer de un índice de sitemaps.

Desventajas de esta aplicación:

Requiere algo de conocimientos en programación, por lo que o bien los ISP ofrecen este servicio como valor añadido para sus clientes o bien muchas páginas web no dispondrán de ese servicio y deberán seguir siendo indexadas por arañas normales y corrientes.

Los sitemap que ya están disponibles en la mayor parte de páginas web no son compatibles con el formato de Google. Google desea un documento en XML con unas especificaciones determinadas.


Con este proyecto, google busca sin duda, la forma de mejorar la indexación de las páginas web y poder contar en sus índices con páginas que hasta ahora se perdían en un mar de enlaces dentro de nuestros sites.

Google ha creado el Sitemap Generator y el servicio de indexación Express y lo ofrece de forma completamente gratuita… será interesante ver la reacción de Yahoo ante esto, ya que Yahoo ofrece el servicio de indexación rápida previo pago de 49$, 20$ o 10$ según el número de url que deseemos indexar de forma acelerada.

De momento no disponemos de resultados de primera mano respecto a la efectividad de la indexación a través del SiteMap de Google. En cuando tengamos instalado el nuevo sitemap en varias páginas web y estemos en disposición de hacer comparativas de número de incremento en páginas indexadas y de frecuencia de visititas de arañas, escribiremos un nuevo artículo informando de los resultados. Nos vemos entonces.


Información complementaria:
URL con información acerca del sitemap de google:
https://www.google.com/webmasters/sitemaps/docs/en/about.html

URL con especificaciones acerca del sitemap:
https://www.google.com/webmasters/sitemaps/docs/en/protocol.html