Bonjour,
J'aimerais soumettre un problème qui peut être simple pour vous mais je galère depuis un moment dessus.
Je m'entraine à scraper des sites et j'arrive à aller choper des textes entre des balises comme ci-dessous :
code :
marque = j.find("div", {"class":"text-bold text-ellipsis"}).get_text()
inspection html :
<div class="text-bold text-ellipsis">
Rolex Daytona</div>
Par contre, j'aimerais aller chercher des informations dans une balise et je n'y arrive pas
inspection html qui me pose soucis, j'aimerais aller récupérer en automatique la valeur Rolex qui se trouve arpès data-manufacturer :
<div class="full-width">
<a href="/rolex/--6239--id27696090.htm" onclick="trackTeaserEvent('home.index', 'recommended-watches', {'articleId': $(this).data('article-id')});" class="article-item block-item rcard" data-article-id="27696090" data-manufacturer="Rolex">
Merci beaucoup pour votre aide.
Damien
python et balise html
-
- Messages : 2
- Inscription : 07 mai 2023, 10:27
- Status : Hors-ligne
Bonjour,
Je n'ai pas beaucoup de succès et je relance donc ce sujet et j'en rajoute un petit et vous remercie par avance pour votre aide.
J'ai les lignes hmtl suivantes avec comme problème, d'avoir plusieurs balises <span> avec plusieurs information distinctes dans une balise "a class="product-item-link""
<a class="product-item-link" href="https://xxx.aaa/ingersoll-i11802-the-catalina.html">
<span>Ingersoll</span>
<span>The Catalina Automatique 44mm</span>
<span>I11802</span>
</a>
Lorsque je fais une get_text dans la balise "a class="product-item-link"", j'extraie toutes les informations sans pouvoir les séparer :
marque = i.find("a", {"class":"product-item-link"}).get_text() me donne par exemple : "IngersollThe Shelby Automatique 44mmI10901B" et j'aurais voulu pouvoir avoir "Ingersoll" et "The Shelby Automatique 44mm" et "I10901B"
Je compte sur vous, encore merci
Edition de la modération: Je casse le lien (Ressemble trop à du Spam)
Je n'ai pas beaucoup de succès et je relance donc ce sujet et j'en rajoute un petit et vous remercie par avance pour votre aide.
J'ai les lignes hmtl suivantes avec comme problème, d'avoir plusieurs balises <span> avec plusieurs information distinctes dans une balise "a class="product-item-link""
<a class="product-item-link" href="https://xxx.aaa/ingersoll-i11802-the-catalina.html">
<span>Ingersoll</span>
<span>The Catalina Automatique 44mm</span>
<span>I11802</span>
</a>
Lorsque je fais une get_text dans la balise "a class="product-item-link"", j'extraie toutes les informations sans pouvoir les séparer :
marque = i.find("a", {"class":"product-item-link"}).get_text() me donne par exemple : "IngersollThe Shelby Automatique 44mmI10901B" et j'aurais voulu pouvoir avoir "Ingersoll" et "The Shelby Automatique 44mm" et "I10901B"
Je compte sur vous, encore merci
Edition de la modération: Je casse le lien (Ressemble trop à du Spam)
-
- Messages : 2
- Inscription : 15 juin 2024, 13:17
- Status : Hors-ligne
Bonjour,
Pour extraire les différentes informations à partir des balises <span> à l'intérieur de <a class="product-item-link">, tu peux utiliser .find_all('span') avec BeautifulSoup. Voici comment tu peux procéder :
avis linksgarden
Pour extraire les différentes informations à partir des balises <span> à l'intérieur de <a class="product-item-link">, tu peux utiliser .find_all('span') avec BeautifulSoup. Voici comment tu peux procéder :
avis linksgarden
Code : Tout sélectionner
from bs4 import BeautifulSoup
html = '''
<a class="product-item-link" href="">
<span>Ingersoll</span>
<span>The Catalina Automatique 44mm</span>
<span>I11802</span>
</a>
'''
soup = BeautifulSoup(html, 'html.parser')
tag = soup.find("a", {"class": "product-item-link"})
spans = tag.find_all("span")
infos = [span.get_text(strip=True) for span in spans]
print(infos)