frutch [wiki]

NutchLocal

Faire en sorte que Nutch indexe votre système de fichier




Ca m’a pris du temps de mettre au point les 3 changements de configuration pour que Nutch fonctionne sur mon disque.


1) Spécification des URLs de fichiers dans la liste

Ca fonctionne pour moi… avec les adresse de fichiers, il semble que le nombre de slashes au début de ligne peut varier.

Exemple :

file:///E:/proj/java/nutch/nutch-0.6/docs/api


2) Changement dans Regex


Dans crawl-urlfilter.txt, regardez la ligne qui ressemble à ça :

-^(file|ftp|mailto|https)

elle exclut et filtre les URL de fichiers. Donc, faites la ressembler à ceci :

-^(ftp|mailto|https)

Près de la fin du fichier, il y a besoin d’une ligne comme celle-ci :

+.*

Et il faut que vous soyez sûr que si cette ligne est commentée, il y a une règle autre part qui autorise les adresses de fichiers.


3) Activer le plugin file

Ajouter une entrée plugin.include dans le fichier nutch-site.xml (basé sur nutch-default.xml), à la différence près qu’il faut ajouter file| dans le champ value
<property>
<name>plugin.includes</name>
<value>protocol-(http|file)|parse-(text|html)|
index-basic|query-(basic|site|url)</value>
</property>


Vous devez faire ceci pour être capable d’utiliser le plugin file.




Source :
http://www.searchmorph.com/weblog/index.php?id=49
Il n'y a pas de commentaire sur cette page. [Afficher commentaires/formulaire]