Veebisaitide kraapimine Pythoni ja BeautifulSoupiga - Semalt Advice

Internetis on veebisaitide ja ajaveebide õigesti kraapimise kohta rohkem kui piisavalt teavet. Vajame mitte ainult juurdepääsu neile andmetele, vaid ka skaleeritavaid viise nende kogumiseks, analüüsimiseks ja korraldamiseks. Python ja BeautifulSoup on kaks suurepärast tööriista veebisaitide kraapimiseks ja andmete ekstraheerimiseks. Veebi kraapides saab andmeid hõlpsalt eraldada ja esitada vajalikus vormingus. Kui olete innukas investor, kes hindab oma aega ja raha, peate kindlasti kiirendama veebi kraapimisprotsessi ja muutma selle võimalikult optimeerituks.

Alustamine

Me kavatseme peamise kraapimiskeelena kasutada nii Pythoni kui ka BeautifulSoupi.

  • 1. Maci kasutajatele on Python eelinstalleeritud OS X-i. Nad peavad lihtsalt avama terminali ja tippima Python -versiooni . Nii näevad nad Python 2.7 versiooni.
  • 2. Windowsi kasutajatel soovitame Python installida selle ametliku saidi kaudu.
  • 3. Järgmisena peate pipi abil juurde pääsema BeautifulSoupi teeki. See paketihaldusriist tehti spetsiaalselt Pythoni jaoks.

Terminalis peate sisestama järgmise koodi:

easy_install pip

pip install BeautifulSoup4

Kraapimisreeglid:

Peamised kraapimisreeglid, mille eest peaksite hoolitsema, on järgmised:

  • 1. Enne selle kraapimisega alustamist peate tutvuma saidi reeglitega. Nii et ole väga ettevaatlik!
  • 2. Te ei tohiks saitidelt andmeid nõuda liiga agressiivselt. Veenduge, et teie kasutatav tööriist käituks mõistlikult. Vastasel juhul võite saidi rikkuda.
  • 3. Üks taotlus sekundis on õige tava.
  • 4. Blogi või saidi paigutust saab igal ajal muuta ja peate võib-olla seda saiti uuesti külastama ja vajadusel oma koodi ümber kirjutama.

Kontrollige lehte

Hõljutage kursorit lehel Hind, et aru saada, mida tuleks teha. Lugege nii HTML-i kui ka Pythoniga seotud teksti ja tulemustest näete HTML-koodide sisemisi hindu.

Ekspordi Exceli CSV-sse

Kui olete andmed kaevandanud, peate järgmise sammu salvestama võrguühenduseta. Exceli komaga eraldatud vorming on selles osas parim valik ja saate selle hõlpsalt oma Exceli lehel avada. Kuid kõigepealt peaksite oma andmete korrektseks salvestamiseks importima Python CSV moodulid ja kuupäeva-aja moodulid. Impordi jaotisesse saab lisada järgmise koodi:

import csv

alates kuupäevaaja importimisest kuni kuupäevaajani

Täpsemad kraapimistehnikad

BeautifulSoup on üks lihtsamaid ja kõikehõlmavaid tööriistu veebi kraapimiseks. Kui teil on vaja koguda suures mahus andmeid, kaaluge mõnda muud võimalust:

  • 1. Teraapia on võimas ja hämmastav python-kraapimisraamistik.
  • 2. Saate koodi ka integreerida avaliku API-ga. Teie andmete tõhusus on oluline. Võite proovida näiteks Facebook Graph API-d, mis aitab andmeid peita ega näita neid Facebooki lehtedel.
  • 3. Lisaks saate kasutada taustaprogramme, näiteks MySQL, ja salvestada andmeid suures koguses suure täpsusega.
  • 4. DRY tähistab sõna "Ärge korrake ennast" ja võite proovida seda tehnikat kasutades korrapäraseid toiminguid automatiseerida.

mass gmail