Fondamentaux
Quand vous effectuez l’action “copier-coller”, vous effectuez un scraping de données. Seulement, il existe des technologies beaucoup plus efficaces que l’intervention humaine pour récupérer des données sur Internet, notamment celle du Web Scraping.
Pour faire simple, le Scraping Web est une version améliorée du “copier-coller” où l’intervention humaine est remplacée par des bots qui s’occupent de rafler l’ensemble du contenu. Dans cet article nous aborderons les enjeux du Scraping par rapport à la cybersécurité.
Qu’est-ce que le Web Scraping en cybersécurité ?
Le Web Scraping est une pratique légitime qui consiste à récupérer les données HTML d’une page web grâce à une action automatisée proche du copier-coller. Les webscrapers font appel à des outils automatisés qui peuvent être une extension de navigateur ou un robot scraper.
Contrairement au screen scraping, le Web Scraping extrait directement les données d’un site Web au niveau de son codage HTML. Le Web Scrape permet de récolter facilement l’ensemble des données d’un site Internet et de les convertir dans un format exploitable.
Si le web scrap vise plutôt les données légitimes, comme le contenu public, il peut permettre dans certains cas d’accéder aux informations de connexion des utilisateurs, ainsi qu’à leurs informations personnelles identifiables. Dans ce cas, il devient un enjeu de cybersécurité.
Quels sont les enjeux du Web Scraping ?
Le Web Scraping possède à la fois des enjeux légaux et des enjeux illégaux. Dans le cas des utilisations illégales, il devient l’affaire de la cybersécurité.
Le Web Scraping légal
Dans un cadre légal, le scraping est surtout utilisé à des fins de création de contenu. Il permet de récupérer un grand nombre de données publiques et de les classer dans des tableaux exploitables à titre d’information.
C’est également une solution de veille concurrentielle très pratique afin de suivre facilement une entreprise depuis son site Internet. Le Web Scraping peut également aider à la recherche de prospects en ciblant les forums ou les F.A.Q.
Enfin, le scraping est utilisé par les moteurs de recherche à des fins d’indexation du contenu et par les sites comparateurs de prix pour scanner et référencer autant d’offres que possible.
Le Web Scraping illégal
Bien qu’en soit l’activité du webscraper reste légale, l’utilisation faite des données collectées peut concerner la cybersécurité.
Par exemple, il est possible pour les cybercriminels d’utiliser les informations recueillies afin d’améliorer leurs attaques de phishing, de dupliquer le contenu pour faire baisser le référencement du site dans les moteurs de recherche, ou de déconfigurer les données pour accéder à des éléments privés comme des informations personnelles ou des identifiants et mots de passe.
Comment travaillent les Web Scrapers ?
Le processus de Web Scraping est le même pour la plupart des logiciels existants. Ils se divisent en deux composantes : le crawler parcourt le web et indexe son contenu. C’est lui qui donne les consignes d’extraction au scraper qui se charge ensuite de l’extraction.
L’extraction des données se fait au niveau HTML, le scraper sait reconnaître les balises les plus courantes pour identifier le contenu important et le rendre dans une forme lisible et exploitable. Toute cette partie est exécutée automatiquement par le logiciel de scraping.
Les Web Scrapers ne suivent donc que 4 étapes simples :
- Entrer les URL des pages qu’ils souhaitent scraper.
- Visiter les pages.
- Paramétrer le scraper en fonction de ce qu’ils souhaitent extraire.
- Enregistrer le résultat dans un format lisible et exploitable.
Quels sont les différents types de webscrapers ?
Il existe 4 grandes catégories de Webscrapers :
- Le webscraper auto-construit est fabriqué directement par l’utilisateur en fonction de ses besoins.
- Le logiciel est installé sur la machine du scrapper et l’extension de navigateur est installée directement sur le navigateur pour extraire les données en navigation.
- Le webscraper sous interface utilisateur offre à l’utilisateur une interface complète pour sélectionner le contenu à scraper.
- Le webscraper cloud est basé sur le nuage plutôt qu’en local pour libérer les ressources de l’ordinateur de l’utilisateur pendant le scraping.
Quels sont les risques du Web Scraping ?
Les deux principaux risques du Web Scraping sont l’amélioration des attaques de phishing et le vol de mots de passe.
Attaques de phishing
Les informations récoltées par les scrapers malveillants peuvent permettre de mieux cibler les attaques de phishing en intégrant des informations précises qui laissent croire aux utilisateurs ciblés que l’e-mail est légitime.
Vol de mots de passe
Le web scraping ne dévoile pas directement les mots de passe mais donne accès à de nombreuses informations qui sont souvent utilisées pour créer les dits mots de passe : date naissance / nom des enfants / nom du conjoint / etc.
Comment les hackers manipulent le data scraping ?
Les hackers peuvent manipuler le scraping pour accéder à des données qui ne leur sont pas destinées. Ils peuvent par exemple contourner les fichiers robot.txt supposés exclure une partie du contenu du scraping.
De plus, ils peuvent utiliser les données collectées afin de tenter de deviner les mots de passe et identifiants des utilisateurs.
Enfin, les hackers peuvent utiliser le Web Scraping pour ralentir un site Web, ou faire baisser son référencement par les moteurs de recherche.
Comment se protéger contre le scraping de données ?
La lutte contre le Web Scraping s’appuie sur des technologies de filtrage des entrées sur le site Web. Pour cela, il existe des solutions cherchant à différencier les bots des utilisateurs humains à partir de leur empreinte HTML, de leur réputation IP et de leur comportement.
Cependant, comme les technologies de scraping sont sans cesse perfectionnées, il est de plus en plus difficile d’exclure un robot scraper de la navigation sur les sites Internet. L’utilisation d’un Captcha peut s’avérer efficace, mais un humain peut facilement le passer.
Comment protéger son site Web ?
La plupart des technologies sont dépassées. Il est possible d’utiliser un plugin anti clic droit, mais la plupart des scrapers savent le contourner. Le fichier robot.txt est également supposé exclure certains contenus du scraping, mais lui aussi est facile à contourner.
Le moyen le plus sûr pour se protéger des pratiques de scraping malveillantes est de limiter les informations sensibles sur le site. Quand il est nécessaire de les faire figurer, il est possible d’utiliser un autre format que le texte (pdf ou jpg par exemple) pour empêcher les scrapers de les récupérer automatiquement.
Quels sont les outils en cybersécurité contre le Web Scraping ?
Les principaux outils de cybersécurité utilisés contre le Web Scraping sont :
- Les captcha
Il s’agit d’une action à effectuer pour accéder au contenu qu’une machine ne peut pas réaliser.
- Les filtres HTML et IP
Ils ont pour but d’identifier et d’exclure les bots de la navigation sur le site.
- Le codage en AJAX
Le caractère asynchrone de ce type de code empêche le robot d’accéder à l’ensemble du contenu d’une page.
Le web scraping en 4 informations clés :
- Le Web Scraping est une pratique automatisée d’extraction des données sur des pages Web.
- Cette pratique s’appuie sur des robots (logiciels ou extensions de navigateur) qui siphonnent le contenu au niveau HTML.
- Elle est utilisée à des fins de création de contenu, de marketing ou de cybercriminalité.
- Il est difficile de protéger un site du Web Scraping, le plus sûr est d’être prudent sur les informations mises en ligne.
Tu souhaites en apprendre plus sur le Web Scrapping ? Découvre les formations de Bac+3 et Bac+5 de la Cyber Management School !