Bueno, como indica el titulo, estoy desarrollando una araña que recorre toda la web. Sí, algo parecido como Google, altervista, duckgo, bueno buscadores. El fin de ésto es aprender y crear un proyecto libre y opensource en el cual TODOS pueden participar y ayudar.
¿Que hace?- A partir de una web inicial extrae todos los enlaces, los valida, los comprueba si son accesibles y los añade a una matriz. Entonces de éstos enlaces obtenidos visitamos otro que cogemos aleatoriamente de la matriz, así infinitamente recopilando enlaces.
Características a implementar.- Buscar enlaces según un/varios criterio(s)/categoría(s)/keyword(s). -> Ejemplo, a partir del keyword 'download' te encuentre todos los sitios que ofrezcan descargas, ésta es una buena herramienta si eres un blogero y eres perezoso, dejas la araña encendida te busca todos los enlaces por ejemplo que tengan los keywords 'informática' y 'descargas' y tendrás un montón de fuentes para cosas que publicar en tu blog, ésta idea me fascina, se podría conectar al blog directamente y generar mucho contenido en poco tiempo.
Popularidad (?)-> Sí, en éste caso sería cuantas veces encontramos X enlace en toda la web, si alguien me da ideas sobre como implementar ésta funcionalidad estaría agradecido, una idea o algo.
Un largo etc..Si, sobre la marcha me vendrán ideas. Ustedes pueden aportar.
Colaborar?Encantado, todos pueden re*****, lo único que necesitas es ganas, git, y conocimientos mínimos en Python, y empiezas haciendo un pull en github.
Código: https://github.com/redigaffi/Web-Spider