Grub: explorando el web desde tu PC

Grub Viendo la lista de bots de búsqueda que visitan este dominio, encontré uno que no había visto: Grub. Al ir a su sitio, me he enterado de lo que se trata: un proyecto impulsado por la gente de LookSmart (los mismos detrás de Furl), que busca nada más y nada menos que registrar todo el web y en tiempo real (eso es ambición).

De acuerdo a sus estimaciones, existirían más de 10 billones de páginas web, mientras que diariamente se crearían o editarían 2 millones.

El método que proponen para poder registrar tal volumen de información es un modelo de computación distribuida, similar al que utilizan en el programa SETI@home: básicamente, se trata de descargar un cliente/salvapantallas que utiliza los recursos del computador en el que está instalado (ancho de banda y procesamiento) para visitar y registrar un conjunto de páginas web, durante el tiempo en que dicho computador no está utilizando esos recursos.

Su meta es poder lograr que existan decenas de miles de clientes donando sus recursos al proyecto, logrando la meta de registrar todas las páginas en Internet, todos los días.

El cliente está disponible para Windows y Linux, y parte de su código ha abierto a través de un proyecto en Sourceforge.

Al inscribirse, existe la opción de señalar la ubicación de tu propia web para dedicar tu cliente al procesamiento de la misma. Además existe la opción de crear y unirse a equipos, los que compiten entre sí en una guerra de estadísticas.

Actualmente, los resultados del proyecto pueden verse en acción en WiseNut, o aprovecharse a través de una API.

Actualización: a pesar de no tener una medida de comparación, me atrevería a decir que el cliente funciona muy eficientemente: en un par de horas conectado, y con una configuración muy modesta (utilización de un 20% de CPU en un Pentium III a 500 Mhz y 44:kbps: de una conexión de cable a 128 :kbps:), he registrado más de 2200 páginas, analizado 1570, procesado 86:mb: de datos.

Esta entrada fue publicada en Internet, Software, Tecnología. Marca el enlace permanente. Publicar un comentario o dejar un trackback: URL del Trackback.

2 Comentarios

  1. Publicado 29 Septiembre, 2005 en 2:23 pm | Permalink

    Tiene buena pinta el proyecto, aunque va a hacer falta bastante colaboracion para que tenga buen puerto.

  2. Publicado 29 Septiembre, 2005 en 3:21 pm | Permalink

    Ese era el maldito!
    Yo lo tenia baneado pro que me aparecia en las estadisticas como robot de busqueda y me consumio como 1gb de transferencias un mes el solo.

Publicar un comentario

Tu correo nunca es compartido ni publicado. Los campos requeridos están marcados *

*
*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Subscribe without commenting

  • Comentarios recientes

  • Archivos

  • Categorías

  • Licencia de contenidos