Documentation
- Franciser la documentation de Nutch (DocumentationNutch)
Administration
- Interface d'administration multi-machines
- Interface Web de Luke?
- Remonter des Traps SNMP (=> patchs de Nutch)
Interface
- Développement de TagLib? Nutch afin de faciliter la customisation de l'interface de recherche.
- Création de scripts de crawl/indexation (et documentation)
Crawling
- Utiliser une architecture de type P2P
Parsing
- Définir un format de document pivot pour l'entrée de l'indexation (voir ParseSchemaProposal).
- Définir un parser xml générique utilisant des feuilles de style pour générer les documents pivots (voir ParseXmlProposal).
- Un parser XML générique a été développé. Il utilise des namespaces et XPATH pour indexer des documents XML. Voir (http://issues.apache.org/jira/browse/NUTCH-185?page=all)
Indexation
Recherche
- Utiliser les éléments relatifs au Web sémantique
Il y a un commentaire sur cette page.
[Afficher commentaires/formulaire]