frutch [wiki]

DimensionnementMoteur

Cette page regroupe quelques témoignages de dimensionnement en attendant d'avoir des résultats expérimentaux.

Note de ChristopheNoel

Les devellopeurs de Nutch s'accordent a dire le plus souvent que chaque page necessite en moyenne 10 Ko. Les chiffres de stockage sont donc a revoir.

Message de ChristopheNoel sur [frutch]

Crawler 4 milliards de page en 2 mois:
  • 370 Tera-octets d'espace de stockage nécessaire
  • 6 connexions 100 Mbits/s (+- 6000 euros par mois)
  • 6 serveurs avec une grande puissance en RAM et quadri-processeur.
Il faut compter un serveur web (avec connexion 100Mbits) par million de requête par jour pour rester dans des temps de réponse raisonnable.

Message de PierreAubert? sur [frutch]

1 millard de documents et 5 requetes secondes:
  • 12 PC bi P4 + 4G de RAM
  • 24 racks disques et dans chaque rack:
    • 12 disques de 250G SATA par exemple
    • ou 12 racks disques de 12x400 SATA.

Je trouve les besoins en disque dur vraiment important. Est-ce que dans ces deux dimensionnement on garde en cache une version de chaque page ?
-- FabienSchwob (2005-03-22 23:59:51)
Travaillant moi même a la conception d'un moteur en Perl je trouve pas que leur besoins en disque dur soit exagéré, ni même ceux en puissance cpu et capcité mémoire, mon robot a moi bouffe 3go de rama avec 800 connexions en parallèles et un cache de connexion de 300 etc.. le tout sans threads ( pas encore bien au point en perl) mais en asynchrone
-- VodevilWiki? (2006-09-24 03:06:50)