Data scraping : collecter des données à grande échelle sur le web

Dernière mise à jour : 07/05/2025

Bannière visuelle de présentation de la formation

Le scraping permet de récolter des masses considérables de données sur le web. Avec quelques notions de programmation sur R, vous pourrez créer rapidement des robots qui travailleront sans relâche pour vous pour scraper des infos.

Objectifs de la formation

Programmer sur votre ordinateur un robot simple pour faire du web scraping et collecter automatiquement des données en ligne

Public visé

Professionnel·le de l'information en rédaction, ONG, organisme public ou privé

Programme

JOUR 1

Qu'est-ce que le scraping? Définition du scraping et de ses différents niveaux de difficulté sur plusieurs supports (depuis le web, depuis du papier, depuis des PDF).
Exemples de projets réalisés grâce au scraping : passage en revue d'utilisation du scraping dans des projets pour bien comprendre l'intérêt d'une telle pratique ainsi que ses limites.
L'environnement légal : dans chaque pays et sur chaque site internet, le scraping s'inscrit dans un cadre légal différent. Découverte de ce qu'il est autorisé de scrapper et de ce qui ne l'est pas.
L'architecture d'internet : pour scraper des sites, il faut avant tout savoir comment Internet fonctionne.
Qu'est ce qu'un « client » ? Qu'est qu'un « serveur » ? Pourquoi est-ce important ?
Sur Internet, les échanges utilisent HTTP et HTML. Comment impactent-t-ils nos scrapers ?
Sur Internet, certaines données sont déjà structurées. Comment les utiliser au travers d'APIs ?
Comprendre comment fonctionne le HTML pour mieux extraire des informations. Qu'est qu'une balise HTML ? Un attribut ? Comme identifier certains éléments avec une CLASS ou un ID?
Initiation au Python, le langage le plus répandu pour coder un scraper : les fichiers, les variables, l'affichage d'information, les conditions et les boucles
Utiliser des fonctions et manipuler des CSVs pour lire et enregistrer des données
Le langage Python offre certains outils spécifiquement dédiés au scraping : Beautiful Soup – pour automatiser les opérations les plus courantes – ou bien CSS Select – pour mieux cibler les éléments à extraire.

JOUR 2

Un scraper simple (requêtes GET, pages séquencées)
Identifier la stratégie à adopter pour naviguer sur le site
Coder le scraper
Un scraper complexe : envoyer des données à un site Internet pour obtenir des résultats plus complexes
Qu'est ce qu'une requête POST et une requête GET ?
Parcourir un site pour trouver les données
Identifier la stratégie à adopter
Coder le scraper

Modalités pédagogiques

En présentiel ou en classe virtuelle synchrone en fonction de l'affluence

Les concepts sont expliqués dans des présentations et mis en pratique sur des cas concrets, du plus simple au plus compliqué.

Théorie: environ 20%. Exercices pratiques: environ 80%.

Prérequis

Aucun, mais si vous avez déjà un projet en tête, c'est mieux !

Matériel requis

Vous pouvez apporter votre ordinateur, c'est mieux pour installer tout ce qu'il faut dessus. Veillez à avoir les droits d'administration sur votre machine. Si vous n'en avez pas, nous vous en fourniront un pour la formation.

Modalités d'évaluation et de suivi

1- Positionnement

Un questionnaire en ligne est adressé aux participant·e·s avec la convocation de manière à évaluer leur niveau initial et leurs attentes.

2-Evaluation des acquis

Au cours de la formation, les exercices réalisés permettent au formateur ou à la formatrice d'évaluer l'acquisition des compétences

3- Attestation

Une attestation des acquis de fin de formation est adressée par mail aux apprenants suite à la session

Moyens et supports pédagogiques

Le support numérique de formation est transmis aux apprenant·e·s pendant ou après la session.

Formateurs et formatrices

Alexandre Victor

Je suis datajournaliste au Parisien depuis 2015. Au quotidien, j’interviens sur le data management, le knowledge management, les datavisualisations, les statistiques, le rich media, les longs formats et les enrichissements interactifs. Je forme au datajournalisme et aux bases du webscraping avec R, y compris les publics les plus novices.

Informations sur l'accessibilité

Nous mettons tout en œuvre pour vous accueillir toutes et tous dans les meilleures conditions. Notre charte handicap détaille nos engagements pour l'accessibilité de nos formations. Contactez notre référent handicap si vous avez des besoins spécifiques d'accompagnement avant, pendant et après la formation: handicap@samsa.fr

Informations sur l'admission

Dès la validation de votre souhait, un devis vous sera proposé. A la validation de votre inscription, une convention ou un contrat de formation vous sera adressé.

Chez Samsa.fr, votre inscription est l'affaire de quelques heures - mais attention aux délais complémentaires qui peuvent être demandés par vos financeurs! Nous sommes là pour vous accompagner dans vos démarches, n'hésitez pas à nous contacter pour toutes questions!

Pré-inscription

Votre situation :
- Je travaille pour une organisation et souhaite m'inscrire personnellement
- Je suis un particulier et souhaite m'inscrire personnellement
- Je suis en charge de la formation dans mon organisation
- Je suis salarié Je suis travailleur non-salarié Je suis bénévole Je suis agent public Autre
- Je suis indépendant / profession libérale Je suis salarié (CPF autonome / silencieux) Je suis en recherche d'emploi Autre
- Je souhaite organiser une formation sur mesure (INTRA) Je souhaite inscrire un ou plusieurs participants de mon organisation en leur nom
Vous avez défini votre situation au moment de sélectionner une formation.
Pour la corriger, vous devez réinitialiser ma demande.

Veuillez décrire votre situation :

Nous programmons cette formation lorsque nous avons suffisamment de candidat·e·s. Prenez contact avec nous!

Si vous êtes responsable formation, vous pouvez faire une requête pour l'organiser en INTRA dans votre entreprise.

Pré-inscription

Catégorie : Enquête et investigation
Durée : 14h
Prix : 1 140 € HT / 1 368 € TTC

Télécharger le programme

Prochaines Sessions

Nous programmons cette formation lorsque nous avons suffisamment de candidat·e·s. Prenez contact avec nous!

Si vous êtes responsable formation, vous pouvez faire une requête pour l'organiser en INTRA dans votre entreprise.

Data scraping : collecter des données à grande échelle sur le web

Objectifs de la formation

Public visé

Programme

Modalités pédagogiques

Prérequis

Matériel requis

Modalités d'évaluation et de suivi

Moyens et supports pédagogiques

Formateurs et formatrices

Alexandre Victor

Informations sur l'accessibilité

Informations sur l'admission

Pré-inscription

Prochaines Sessions

Dans la même catégorie