L'aspirateur de site HTTRack

 

Sommaire

Introduction

1. Les aspirateurs de sites

1.1 Les fonctionnalités

1.2 Avantages et inconvénients

2. L'aspirateur de site Httrack

2.1 Présentation

2.2 Description

2.3 Les points forts et les points faibles

2.4 L'avis des utilisateurs

2.5 Httrack un logiciel moderne et dynamique

 

Conclusion

Sitographie


 Introduction

. Accéder aux informations rapidement, surveiller l'évolution des informations sont les objectifs d'un documentaliste ; dans ce sens, les aspirateurs de site sont des outils de travail intéressants. L’objectif à travers cet exposé est simple : avoir des connaissances solides sur les aspirateurs de site et les transmettre du mieux possible afin d'élargir notre savoir sur les logiciels. Pour introduire ce sujet, il faut tout d'abord donner une définition des aspirateurs de site en montrant leurs fonctionnalités principales : " grâce à un aspirateur, on peut télécharger les pages WEB de n'importe quel site Internet ainsi que tous les graphismes et sons associés et les sauvegarder sur notre disque dur " (http://www.abondance.com/ressources/aspirateurs.html ). Ainsi, il est possible de consulter le site téléchargé plus tard hors ligne. Ces aspirateurs de site sont également des logiciels de veille en mettant en place des programmes de surveillance. Nous ferons donc une description plus détaillée des aspirateurs de site pour pouvoir ensuite s'attarder et s'attacher plus particulièrement à un logiciel qui fait partie de cette famille : httrack.


1. Une notion à éclaircir : les aspirateurs de site

1.1 Les fonctionnalités

Comme il a été dit en introduction, cette famille de logiciels permet de télécharger des pages WEB d'un site Internet (celui de notre choix) pour pouvoir ensuite le voir hors ligne. Généralement, c'est cette notion de hors ligne qui attire beaucoup puisqu'elle génère des économies par rapport au téléphone et à la connexion Internet..

L'aspiration d'un site n'est pas une opération difficile et se résume en huit étapes :
-  Sélectionner le site à aspirer
- Noter son adresse
- Décider où aspirer le site (dossier/fichier)
- Lancer le logiciel avec lequel nous aspirons et rentrer l'adresse du site à aspirer
- Donner un nom à l'aspiration
- Indiquer un endroit de stockage et choisir une configuration
- Choisir si l'on veut aspirer tout le site ou seulement des parties
- Appuyer sur capturer

Il faut tout de même spécifier que cette famille de logiciels est plus adaptée à aspirer des petits sites et des sites statiques car pour les sites dynamiques, les aspirateurs rencontrent des problèmes pour accéder aux bases de données.
Un grand nombre de logiciels appartiennent à cette famille : nous en comptons en effet environ 70 et parmi eux, certains sont payants et d'autres gratuits.

1.2 Avantages et inconvénients

Les aspirateurs de site, comme toutes les autres familles de logiciels, présentent des limites comme des avantages. En ce qui concerne les limites, nous pouvons citer l'encombrement du disque dur lorsque nous aspirons un site complet avec tous ses liens. Les aspirateurs peuvent également provoquer des dégâts comme la lenteur et la surcharge des serveurs. Enfin, ils entraînent aussi un nombre conséquent de requêtes et de volume de trafic car ils visitent et téléchargent souvent toutes les pages, tous les fichiers et toutes les images. Cependant, les avantages sont nombreux : nous pouvons dire qu'un site aspiré peut se consulter hors ligne ; ainsi, les personnes ayant une connexion Internet lente et onéreuse apprécie cette fonctionnalité d'autant plus qu'elle permet aussi d'économiser des coûts téléphoniques. De plus, les aspirateurs de site sont capables d'aspirer un site entier ce qui diffère d'un navigateur qui ne télécharge qu'une seule page à la fois.

 Dans un cadre professionnel, les aspirateurs tels que eCatch ou Teleport pro peuvent jouer le rôle de logiciels de veille car ils permettent d'automatiser les mises à jour de pages ce qui signifie de surveiller l'évolution d'un site en mettant en place des programmes de surveillance : on parle de veille permanente en technologie, d'observation de concurrents ou de surveillance de risques politiques. Ainsi, ils permettent de collecter des informations par rapport à des axes de surveillance pour pouvoir ensuite interpréter ces informations et prendre des décisions.

2.L'aspirateur de site Httrack

Pour recueillir de l’information sur Httrack nous avons principalement utilisé le site : www.httrack.com, on y trouve de la documentation sur la dernière version, des informations générale sur l’aspirateur, un historique retraçant l’évolution d’httrack, un forum et la possibilité de télécharger l’aspirateur.

Httrack est un aspirateur de site qui a été créé par des étudiants : Xavier Roche et Yann Philippot.

2.1 Présentation

Version : 3.30

Date de sortie : 11/10/2003

Taille : 3,3 Mo

Systèmes d'exploitation : Windows, Linux, Sun solaris, et autres systèmes Unix

Temps de téléchargement : 0 min et 50,45 secondes avec adsl et câble

Type de licence : Logiciel libre

Prix :Gratuit

2.2 Les principales options d’Httrack

 

- Une interface multi-langues : l’aspirateur de site est disponible en 25 langues dont le français.

 

- Une mise à jour rapide qui permet de mettre à jour un site déjà aspiré.

 

- Possibilité si lors d’une aspiration le processus est interrompu de reprendre le transfert

 

- Une option d’utilisation des miroirs afin de permettre la copie exacte d'un site Internet

 

- Une connexion multiple : par défaut on a 8 connexions pour augmenter la vitesse, le logiciel se connecte en simultané a plusieurs pages Internet pour en télécharger plusieurs en même temps, afin de ne pas être retardé si l'une des pages est difficile à télécharger

 

- Une compression http pour réduire la taille du site

 

- On peut grâce à des filtres demander à Httrack qu’il n’aspire pas certains fichiers afin de ne pas surcharger le disque dur en autre.

- Lorsque l’on aspire un site, si le processus d’aspiration est interrompu, Httrack propose de consulter un fichier d’erreur

2.3 Comment aspirer un site avec Httrack

L’interface d’Httrack est simple et conviviale. L’aspiration d’un site se fait en 3 étapes :

 

La première étape consiste à donner un nom  à notre projet et à définir le chemin de base où l’on veut stocker le site que l’on va aspirer.

Dans la seconde étape, on définit l’action que l’on veut réaliser : aspirer un site, faire une mise à jour, reprendre une copie interrompue par exemple. Puis on donne l’adresse du site que l’on va aspirer  enfin il faut définir les différentes options afin de paramétrer l’aspiration en fonction du site. On peut entre autre mettre des filtres pour exclure certains fichier, définir la structure du site dans notre espace, la profondeur de site ou le temps maximum pour l’aspiration.

La dernière étape permet de préciser les options de connexions

2.4 Les points forts et les points faibles

Points forts

- C'est un logiciel gratuit

- Compatible sur beaucoup de systèmes

- Il possède une interface multi-langues

- Sa fonction de mise à jour, très utile si on fait de la veille

 

 

Points faibles

- La documentation est en anglais

- Ne peut pas aspirer les sites qui ont une base de données

 

-

Il n’aspire pas les pages qui sont protégé

 

2.5 L'avis des utilisateurs

Pour collecter nos témoignages, nous avons utilisé le forum du site et nous avons interrogé Fabrice un jeune informaticien.

· Sur le forum du site

- Irremplaçable

Le seul véritablement gratuit et efficace, comme annoncé, mais également le meilleur (malgré son interface spartiate). L'essayer c'est l'adopter.

- Excellent

La perfection n'existant pas, je ne peux me résoudre à lui mettre un 5/5, quelques petits défaut restant mais comparé à la concurrence payante, il est indéniable que c'est un excellent soft ;

· Fabrice

Nous avons interrogé Fabrice, un informaticien qui utilise httrack depuis 2 ans pour aspirer des sites simples (c'est-à-dire avec des pages statiques) dans le cadre de son travail, il a choisi httrack parce qu'il n’a pas l'adsl, qu'il n'était pas très gros à télécharger et qu'il n’était pas trop mal coté chez télécharger.com. Pour lui, le point fort d'httrack est sa simplicité d'utilisation et son point faible est qu'il recrée le site aspiré autour d'une nouvelle page d'accueil.

2.6 Pour finir…

Httrack est un logiciel gratuit qui rivalise avec de très bons aspirateurs commerciaux tels que memoweb ou teleport pro, le problème du coût ne se pose donc pas est il n’est pas non plus soumis aux pressions du marché. Etant un logiciel libre, son évolution dépend de l’éditeur, de démarches spontanées d’utilisateurs, ou d’une équipe de bénévoles, dans le cas de httrack, on peut dire que c’est son éditeur lui-même qui le fait évoluer, on trouve en effet sur le site officiel du logiciel une partie historique qui retrace l’évolution du logiciel en détaillant les modifications apportées aux différentes versions.  Comme on a pu le voir, httrack est compatible avec beaucoup de systèmes d’exploitation, à l’heure où le service documentation doit être en adéquation avec les exigences du parc informatique de sa structure, c'est-à-dire, en réseau avec les autres services, cette spécificité est importante. De plus, il peut s’utiliser avec le système d’exploitation linux qui est considéré actuellement comme le plus fiable.

Ce logiciel peut être utilisé comme un logiciel de veille, en effet, il en possède certaines caractéristiques : il permet de collecter l’information et d’en suivre son évolution grâce à sa fonction de mise à jour.

Enfin, on peut dire que ce logiciel est paramétrable dans le sens où l’utilisateur a à sa disposition de nombreuses options qui lui permettent de configurer le logiciel au site qu’il souhaite aspirer.

 

Conclusion

Les aspirateurs de site peuvent être des outils de travail pour le documentaliste car ils possèdent des fonctionnalités spécifiques de la veille documentaire. De plus, ils permettent de diminuer les coûts de connexion au réseau Internet car un site aspiré peut se consulter hors ligne. Httrack est un aspirateur de site gratuit, configurable et simple d’utilisation ; il est donc accessible à tout type d’utilisateur. C’est un logiciel dynamique qui évolue depuis plusieurs années et qui suit les tendances du marché. D’un point de vue professionnel, les aspirateurs de site peuvent prétendre devenir un outil de travail indispensable pour faire de la veille mais quel sera son avenir pour une utilisation personnelle si on prend en compte l’émergence de l’adsl dans les foyers ?

 

 


 

Sitographie

www.idf.net/info/aspirateurs.html

Liste complète des aspirateurs de site

 

http://blog.dreams4net.com/Aspirateurs

Côté néfaste des aspirateurs de site et les dégâts qu’ils causent.

 

http://www.abondance.com/ressources/aspirateurs.html

Définition des aspirateurs de site et présentation succincte des principaux logiciels qui font partie de cette famille (Memo Web, Teleport pro, eCatch…..).

 

http://www.ac-creteil.fr/medialog/ARCHIVE36/aspirer36.pdf

Définition des aspirateurs de site et description d’une capture de site.

 

http://www.toulouse-renaissance.net/c_outils/c_liste_aspirateurs.htm

Document réservé aux professionnels : liste des aspirateurs de site dont on peut interdire l’accès à son propre site grâce au fichier htaccess.

 

http://www.ac-creteil.fr/portugais/FICHE4.HTML

Les étapes de la capture d’un site.

 

www.httrack.com

Site officiel de l’aspirateur de site, on y trouve toutes les informations pratiques et techniques sur l’aspirateur, son évolution d’aller sur le forum notamment pour faire des remarques, des commentaires sur l’aspirateur. Il est disponible en français et en anglais.