indexer le contenu d’un typo3 automatiquement

Le 16 novembre 2011, par Sébastien | Catégorie(s) : TYPO3

Imprimer ce post Imprimer ce post

Il faut l’extension ici : http://typo3.org/extensions/repository/view/crawler/current/

Ensuite, dans les paramétrages du plugin, il faut lui donner le chemin d’accès du frontend :

Frontend website base path [frontendBasePath]
Base path of the website frontend (e.g. if you call http://mydomain.com/cms/index.php in the browser the base path is « /cms/ »)
Par défaut, ce plugin ne traite que 100 urls à chaque fois qu’il est lancé. Vous pouvez modifier ceci dans les paramétrages du plugin : il faut modifier la valeur du champs « Maximal number of URLs, which can be added to the queue at one time »

ensuite, il faut activer l’indexation dans le typoscript du gabarit principal :

config.index_enable = 1

config.index_externals = 1

Dans les paramétrage du plugin indexed_search engine, il faut désactiver l’indexation à la volée :

2009-04-20_131623

Ensuite, il faut créer un utilisateur qui à pour identifiant et mot de passe : _cli_crawler. Il n’y à pas besoin de lui donner les droits administrateur ou de le mettre dans un groupe BE.

Puis, dans le TSconfig de la page racine du site, il faut  mettre :

#set up a crawl for users that arent logged in

tx_crawler.crawlerCfg.paramSets.contenusite =
tx_crawler.crawlerCfg.paramSets.contenusite {
 cHash = 1
 procInstrFilter = tx_indexedsearch_reindex, tx_indexedsearch_crawler
 baseUrl = http://www.toto.fr/
}
# for tt_news
# _PID:56 is the sysfolder with the news records
# pidsOnly = 80 is the page with the news singeview.
tx_crawler.crawlerCfg.paramSets {
 tt_news = &tx_ttnews[tt_news]=[_TABLE:tt_news;_PID:56]
 tt_news.procInstrFilter = tx_indexedsearch_reindex
 tt_news.cHash = 1
 tt_news.pidsOnly = 85
 tt_news.baseUrl = http://www.toto.fr/
}
Et sur le serveur, il faut mettre un script SH qui lance l’indexation automatique en 2 temps : mise dans la file d’attente puis crawl le site :

typo3/cli_dispatch.phpsh crawler_im 1 -d 99 -proc tx_indexedsearch_reindex -n 200 -o queue 

typo3/cli_dispatch.phpsh crawler
Le chiffre 1 est l’id de la page racine du site.
le chiffre 99 est la profondeur de récursivité
le chiffre 200 est le nombre d’url traitée à la minute
-proc tx_indexedsearch_reindex force l'indexation
Un grand merci à Yohann CERDAN pour son blog et ses astuces sous typo3 : http://www.ycerdan.fr/
Bookmark and Share

Laissez un commentaire...