Cette page regroupe quelques témoignages de dimensionnement en attendant d'avoir des résultats expérimentaux.
Note de ChristopheNoel
Les devellopeurs de Nutch s'accordent a dire le plus souvent que chaque page necessite en moyenne 10 Ko. Les chiffres de stockage sont donc a revoir.Message de ChristopheNoel sur [frutch]
Crawler 4 milliards de page en 2 mois:- 370 Tera-octets d'espace de stockage nécessaire
- 6 connexions 100 Mbits/s (+- 6000 euros par mois)
- 6 serveurs avec une grande puissance en RAM et quadri-processeur.
Message de PierreAubert? sur [frutch]
1 millard de documents et 5 requetes secondes:- 12 PC bi P4 + 4G de RAM
- 24 racks disques et dans chaque rack:
- 12 disques de 250G SATA par exemple
- ou 12 racks disques de 12x400 SATA.
Commentaires [Cacher commentaires/formulaire]
Je trouve les besoins en disque dur vraiment important. Est-ce que dans ces deux dimensionnement on garde en cache une version de chaque page ?
-- FabienSchwob (2005-03-22 23:59:51)
Travaillant moi même a la conception d'un moteur en Perl je trouve pas que leur besoins en disque dur soit exagéré, ni même ceux en puissance cpu et capcité mémoire, mon robot a moi bouffe 3go de rama avec 800 connexions en parallèles et un cache de connexion de 300 etc.. le tout sans threads ( pas encore bien au point en perl) mais en asynchrone
-- VodevilWiki? (2006-09-24 03:06:50)