L'aspirateur
de site HTTRack
Sommaire
1.2 Avantages et inconvénients
2. L'aspirateur de site Httrack
2.3 Les points forts et les points faibles
2.5 Httrack un logiciel
moderne et dynamique
.
Accéder aux informations rapidement, surveiller l'évolution des informations
sont les objectifs d'un documentaliste ; dans ce sens, les aspirateurs de site
sont des outils de travail intéressants. L’objectif à travers cet exposé est
simple : avoir des connaissances solides sur les aspirateurs de site et les
transmettre du mieux possible afin d'élargir notre savoir sur les logiciels.
Pour introduire ce sujet, il faut tout d'abord donner une définition des
aspirateurs de site en montrant leurs fonctionnalités principales : "
grâce à un aspirateur, on peut télécharger les pages WEB de n'importe quel site
Internet ainsi que tous les graphismes et sons associés et les sauvegarder sur
notre disque dur " (http://www.abondance.com/ressources/aspirateurs.html
). Ainsi, il est possible de consulter le site téléchargé plus tard hors ligne.
Ces aspirateurs de site sont également des logiciels de veille en mettant en
place des programmes de surveillance. Nous ferons donc une description plus
détaillée des aspirateurs de site pour pouvoir ensuite s'attarder et s'attacher
plus particulièrement à un logiciel qui fait partie de cette famille : httrack.
1. Une notion à éclaircir : les aspirateurs de site
Comme
il a été dit en introduction, cette famille de logiciels permet de télécharger
des pages WEB d'un site Internet (celui de notre choix) pour pouvoir ensuite le
voir hors ligne. Généralement, c'est cette notion de hors ligne qui attire
beaucoup puisqu'elle génère des économies par rapport au téléphone et à la
connexion Internet..
L'aspiration d'un
site n'est pas une opération difficile et se résume en huit étapes :
- Sélectionner le site à aspirer
- Noter son adresse
- Décider où aspirer le site (dossier/fichier)
- Lancer le logiciel avec lequel nous aspirons et rentrer l'adresse du site à
aspirer
- Donner un nom à l'aspiration
- Indiquer un endroit de stockage et choisir une configuration
- Choisir si l'on veut aspirer tout le site ou seulement des parties
- Appuyer sur capturer
Il
faut tout de même spécifier que cette famille de logiciels est plus adaptée à
aspirer des petits sites et des sites statiques car pour les sites dynamiques,
les aspirateurs rencontrent des problèmes pour accéder aux bases de données.
Un grand nombre de logiciels appartiennent à cette famille : nous en comptons
en effet environ 70 et parmi eux, certains sont payants et d'autres gratuits.
1.2 Avantages et inconvénients
Les aspirateurs de site, comme toutes les
autres familles de logiciels, présentent des limites comme des avantages. En ce
qui concerne les limites, nous pouvons citer l'encombrement du disque dur
lorsque nous aspirons un site complet avec tous ses liens. Les aspirateurs
peuvent également provoquer des dégâts comme la lenteur et la surcharge des serveurs.
Enfin, ils entraînent aussi un nombre conséquent de requêtes et de volume de
trafic car ils visitent et téléchargent souvent toutes les pages, tous les
fichiers et toutes les images. Cependant, les avantages sont nombreux : nous
pouvons dire qu'un site aspiré peut se consulter hors ligne ; ainsi, les
personnes ayant une connexion Internet lente et onéreuse apprécie cette
fonctionnalité d'autant plus qu'elle permet aussi d'économiser des coûts
téléphoniques. De plus, les aspirateurs de site sont capables d'aspirer un site
entier ce qui diffère d'un navigateur qui ne télécharge qu'une seule page à la
fois.
Dans un cadre professionnel, les aspirateurs
tels que eCatch ou Teleport pro peuvent jouer le rôle de logiciels de veille
car ils permettent d'automatiser les mises à jour de pages ce qui signifie de
surveiller l'évolution d'un site en mettant en place des programmes de
surveillance : on parle de veille permanente en technologie, d'observation de
concurrents ou de surveillance de risques politiques. Ainsi, ils permettent de
collecter des informations par rapport à des axes de surveillance pour pouvoir
ensuite interpréter ces informations et prendre des décisions.
2.L'aspirateur de site Httrack
Pour recueillir de l’information sur Httrack nous
avons principalement utilisé le site : www.httrack.com,
on y trouve de la documentation sur la dernière version, des informations
générale sur l’aspirateur, un historique retraçant l’évolution d’httrack, un
forum et la possibilité de télécharger l’aspirateur.
Httrack est un aspirateur de site qui a
été créé par des étudiants : Xavier Roche et Yann Philippot.
Version : 3.30
Date de sortie : 11/10/2003
Taille : 3,3 Mo
Systèmes d'exploitation : Windows, Linux, Sun solaris, et autres
systèmes Unix
Temps de téléchargement : 0 min et 50,45 secondes avec adsl et
câble
Type de licence : Logiciel libre
Prix :Gratuit
2.2 Les principales options d’Httrack
-
Une interface multi-langues :
l’aspirateur de site est disponible en 25 langues dont le français.
-
Une mise à jour rapide qui permet de
mettre à jour un site déjà aspiré.
-
Possibilité si lors d’une aspiration le processus est interrompu de reprendre le transfert
-
Une option d’utilisation des miroirs afin de permettre la copie
exacte d'un site Internet
-
Une connexion multiple : par défaut on a 8
connexions pour augmenter la vitesse, le logiciel se connecte en simultané a
plusieurs pages Internet pour en télécharger plusieurs en même temps, afin de
ne pas être retardé si l'une des pages est difficile à télécharger
- Une compression http pour réduire la taille du site
- On peut grâce à des filtres demander à Httrack qu’il n’aspire
pas certains fichiers afin de ne pas surcharger le disque dur en autre.
- Lorsque l’on aspire un site, si le processus
d’aspiration est interrompu, Httrack propose de consulter un fichier d’erreur
2.3 Comment aspirer un site avec Httrack
L’interface d’Httrack est simple et conviviale.
L’aspiration d’un site se fait en 3 étapes :
La première étape consiste à donner un nom à notre projet et à définir le chemin de base
où l’on veut stocker le site que l’on va aspirer.
Dans la seconde étape, on définit l’action que l’on
veut réaliser : aspirer un site, faire une mise à jour, reprendre une
copie interrompue par exemple. Puis on donne l’adresse du site que l’on va
aspirer enfin il faut définir les
différentes options afin de paramétrer l’aspiration en fonction du site. On
peut entre autre mettre des filtres pour exclure certains fichier, définir la
structure du site dans notre espace, la profondeur de site ou le temps maximum
pour l’aspiration.
La dernière étape permet de préciser les options de
connexions
2.4 Les points forts et les points faibles
Points forts
- C'est un logiciel gratuit
- Compatible sur beaucoup de systèmes
- Il possède une interface multi-langues
- Sa fonction de mise à jour, très utile
si on fait de la veille
Points faibles
- La documentation est en anglais
- Ne peut pas aspirer les sites qui ont une base de
données
-
Il n’aspire pas les pages qui sont protégé
Pour collecter nos témoignages, nous avons utilisé le forum du site et
nous avons interrogé Fabrice un jeune informaticien.
· Sur le forum du site
-
Irremplaçable
Le
seul véritablement gratuit et efficace, comme annoncé, mais également le
meilleur (malgré son interface spartiate). L'essayer c'est l'adopter.
-
Excellent
La
perfection n'existant pas, je ne peux me résoudre à lui mettre un 5/5, quelques
petits défaut restant mais comparé à la concurrence payante, il est indéniable
que c'est un excellent soft ;
· Fabrice
Nous avons interrogé Fabrice, un informaticien qui utilise httrack depuis 2 ans pour aspirer des sites simples (c'est-à-dire avec des pages statiques) dans le cadre de son travail, il a choisi httrack parce qu'il n’a pas l'adsl, qu'il n'était pas très gros à télécharger et qu'il n’était pas trop mal coté chez télécharger.com. Pour lui, le point fort d'httrack est sa simplicité d'utilisation et son point faible est qu'il recrée le site aspiré autour d'une nouvelle page d'accueil.
Httrack
est un logiciel gratuit qui rivalise avec de très bons aspirateurs commerciaux tels
que memoweb ou teleport pro, le problème du coût ne se pose donc pas est il
n’est pas non plus soumis aux pressions du marché. Etant un logiciel libre, son
évolution dépend de l’éditeur, de démarches spontanées d’utilisateurs, ou d’une
équipe de bénévoles, dans le cas de httrack, on peut dire que c’est son éditeur
lui-même qui le fait évoluer, on trouve en effet sur le site officiel du
logiciel une partie historique qui retrace l’évolution du logiciel en
détaillant les modifications apportées aux différentes versions. Comme on a pu le voir, httrack est compatible
avec beaucoup de systèmes d’exploitation, à l’heure où le service documentation
doit être en adéquation avec les exigences du parc informatique de sa structure,
c'est-à-dire, en réseau avec les autres services, cette spécificité est
importante. De plus, il peut s’utiliser avec le système d’exploitation linux
qui est considéré actuellement comme le plus fiable.
Ce
logiciel peut être utilisé comme un logiciel de veille, en effet, il en possède
certaines caractéristiques : il permet de collecter l’information et d’en
suivre son évolution grâce à sa fonction de mise à jour.
Enfin,
on peut dire que ce logiciel est paramétrable dans le sens où l’utilisateur a à
sa disposition de nombreuses options qui lui permettent de configurer le
logiciel au site qu’il souhaite aspirer.
Les
aspirateurs de site peuvent être des outils de travail pour le documentaliste
car ils possèdent des fonctionnalités spécifiques de la veille documentaire. De
plus, ils permettent de diminuer les coûts de connexion au réseau Internet car
un site aspiré peut se consulter hors ligne. Httrack est un aspirateur de site
gratuit, configurable et simple d’utilisation ; il est donc accessible à
tout type d’utilisateur. C’est un logiciel dynamique qui évolue depuis
plusieurs années et qui suit les tendances du marché. D’un point de vue
professionnel, les aspirateurs de site peuvent prétendre devenir un outil de
travail indispensable pour faire de la veille mais quel sera son avenir pour
une utilisation personnelle si on prend en compte l’émergence de l’adsl dans
les foyers ?
www.idf.net/info/aspirateurs.html
Liste
complète des aspirateurs de site
http://blog.dreams4net.com/Aspirateurs
Côté
néfaste des aspirateurs de site et les dégâts qu’ils causent.
http://www.abondance.com/ressources/aspirateurs.html
Définition
des aspirateurs de site et présentation succincte des principaux logiciels qui
font partie de cette famille (Memo Web, Teleport pro, eCatch…..).
http://www.ac-creteil.fr/medialog/ARCHIVE36/aspirer36.pdf
Définition
des aspirateurs de site et description d’une capture de site.
http://www.toulouse-renaissance.net/c_outils/c_liste_aspirateurs.htm
Document
réservé aux professionnels : liste des aspirateurs de site dont on peut
interdire l’accès à son propre site grâce au fichier htaccess.
http://www.ac-creteil.fr/portugais/FICHE4.HTML
Les étapes
de la capture d’un site.
Site officiel de l’aspirateur de site, on y trouve
toutes les informations pratiques et techniques sur l’aspirateur, son évolution
d’aller sur le forum notamment pour faire des remarques, des commentaires sur
l’aspirateur. Il est disponible en français et en anglais.