Web scraping avec Python (Beautiful Soup)

27 févr. 2023, 16:19

Salut les balèzes,

J'utilisais jusqu’à il y a peu un script en python de ce genre pour "scraper" une page Web.

"""A Simple Script for Extracting Data from a Webpage 
This script allows the user to extract data from a webapge and then export the data to a csv file with column(s).
"""# libraries
import urllib.request
from bs4 import BeautifulSoup
import csv# Put your URL here
url = 'https://www.nytimes.com/books/best-sellers/combined-print-and-e-book-nonfiction/'# Fetching the html
request = urllib.request.Request(url)
content = urllib.request.urlopen(request)# Parsing the html 
parse = BeautifulSoup(content, 'html.parser')# Provide html elements' attributes to extract the data 
text1 = parse.find_all('h3', attrs={'class': 'css-5pe77f'})
text2 = parse.find_all('p', attrs={'class': 'css-hjukut'})# Writing extracted data in a csv file
with open('index.csv', 'a') as csv_file:
  writer = csv.writer(csv_file, delimiter=',', quotechar='"', quoting=csv.QUOTE_ALL)
  writer.writerow(['Title','Author'])
  for col1,col2 in zip(text1, text2):
    writer.writerow([col1.get_text().strip(), col2.get_text().strip()])

Le script est basé sur la librairie Beautiful Soup que tout le mon connait je pense.

Malheureusement le site a été refondu et plus rien de fonctionne
Curl génère d'ailleurs un fichier inutile, sans les informations qui m'intéressent (Pas de table par exemple...).

Auriez-vous une idée pour récupérer les informations de cette page (C'est le tx de change qui l'intéresse):
https://www.banky-foibe.mg/marche_marche-de-change

Merci pour vos lumières.

dezix · 28 févr. 2023, 08:26

Salut !

Je ne pense pas faire avancé ton schmilblick,

le seul début de solution : Ouvrir la page avec FF et l'enregistrer dans un fichier au format texte (manuellement)
à partir de là tu as tes infos dans un état "brut"

Pour obtenir le même fichier directement par une commande ... je n'ai pas idée.

Il faut un navigateur programme en CLI qui exécute les scripts et enregistrer la sortie.

Lapalisse n'aurait pas mieux dit

dezix · 28 févr. 2023, 08:54

1000000 excuses j'avais mal lu mon fichier texte, ce n'est pas le taux de change mais une autre donnée qui est affichée.

... et maintenant le site de répond plus .... la banque aurait-elle sautée ?... rien ne va plus! les jeux sont faits.

dezix · 28 févr. 2023, 08:59

Ce matin je n'ai pas la tête à sa place :

Principaux indicateursPrincipaux indicateurs

Taux de change du 27/02/2023
Cours de référenceUSD Ar 4 286,85
EUR Ar 4 512,28

C'est ce que tu recherches ? ou autre chose ?

dezix · 28 févr. 2023, 10:29

Peut-être que cet URL est mieux ?

Code : Tout sélectionner

https://www.banky-foibe.mg/marche_marche-de-change#recherche-taux-de-change

vv222 · 28 févr. 2023, 11:43

Je vois que maintenant la page est générée intégralement en JavaScript, ça ne va clairement pas faciliter la tâche. Mais je teste quelques trucs ici, voir si je peux te proposer des pistes.

---

J’ai trouvé le cours des devises : https://www.banky-foibe.mg/admin/wp-jso ... rs_devises

Pour info je me suis contenté de charger la page avec l’inspecteur réseau de Firefox ouvert, et de filtrer uniquement les requêtes de type XHR. De là j’ai pu voir que les données de la page sont renseignées via de multiples fichiers JSON, ne restait plus qu’à fouiller un peu pour trouver le bon.

28 févr. 2023, 12:06

Salut,

Merci à vous deux.
Dezix, merci beaucoup, mais j'avais déjà vu cette page (Le XLS a téléchargé est corrompu, inexploitable)...
Si tu n'accède pas au site c'est que tu doit avoir été banni. Ils sont par très rigolos à la banque centrale de Madagascar... ;-)

@vv222 magnifique, tu es un champion!

Et cerise il y a les 30 derniers jours de cotation.

Et même plus besoin de Beautiful Soup, le Json est directement exploitable.

Top!

vv222 · 28 févr. 2023, 15:20

En fait c’est mon métier depuis bientôt 2 ans, d’aller récupérer des données depuis des sites Web ou API peu coopératives, en particulier celles de banques

28 févr. 2023, 16:23

vv222 a écrit : 28 févr. 2023, 15:20 En fait c’est mon métier depuis bientôt 2 ans, d’aller récupérer des données depuis des sites Web ou API peu coopératives, en particulier celles de banques

Je suis tombé sur le spécialiste, c'est miraculeux!

Encore merci.