Python - HTMLParser

Sadržaj
Prilikom izvođenja radova sa parser u Piton preporučuje se da ako radimo s dokumentima HTML koristiti standard XHTML, budući da je potonji stroži kada je u pitanju rukovanje početnim i zatvaranjem oznaka elemenata, s tim možemo olakšati programe koji to mogu protumačiti.
U Piton imamo na raspolaganju HTMLParser, to se ne smije miješati s klasom istog naziva modula htmllib, budući da je prvi dio standardne knjižnice, kada dobijemo dokument iz Uredan, cist možemo koristiti HMTLParser kako biste mogli pregledavati njegov sadržaj.
Korištenje HTMLParser -a
Koristiti HTMLParser, to doista znači podrazvrstavanje, kako bismo mogli prebrisati metode kad nam odgovara i na taj način biti u mogućnosti zadovoljiti naše zahtjeve, pogledajmo ispod popis glavnih metoda koje dobivamo pri korištenju HTMLParser.
  • handle_starttag (oznaka, attrs): Kada se pronađe početna oznaka attrs je niz parova (ime, vrijednost).
  • handle_startendtag (oznaka, attrs): Koristi se za prazne naljepnice. Prema zadanim postavkama zasebno upravlja pokretanjem i isključivanjem.
  • handle_endtag (oznaka): Koristi se kada se pronađe zaključna oznaka.
  • handle_data (podaci): Koristi se kada pronađemo tekstualne podatke.
  • handle_charref (ref): Koristi se pri radu s referencama na znakove oblika & # ref;.
  • handle_entityref (naziv): Koristimo ga kada imamo reference na entitete oblika & name;.
  • handle_comment (podaci): Poziva se samo ako postoji komentirani sadržaj.
  • handle_decl (decl): Koristi se za deklaracije oblika.
  • handle_pi (podaci): Koristi se za obradu uputa.
Nakon što smo vidjeli glavne metode HTMLParserZatim ćemo vidjeti sliku s primjerom koda, a zatim ćemo objasniti od čega se sastoji:

POVEĆAJTE

Prvo što primjećujemo je da za ovo Struganje zaslona nećemo koristiti Uredan, cistTo je zato što HTML koji ćemo pregledati nije loše formiran, tada vidimo da je prvo što deklariramo neke Booleove varijable pomoću kojih ćemo kontrolirati jesmo li unutar elementa H4 ili unutar elementa veze ili veze.
Imamo nešto posebno s metodom handle_dataKako se nalazimo u stvarnom životnom okruženju, moramo se pripremiti za najsloženije scenarije, a time želimo reći da je gotovo sigurno da nećemo prikupiti potrebne informacije pri prvom pozivu, te metode pripremamo kako bismo ih mogli dobiti u dijelovima, kad dobijemo sve, spajamo podatke.
Djelovanje našeg programa počinje kada pozovemo metodu feed () kojem prenosimo tekst koji je sadržaj web stranice koji dobijemo metodom urlopen () i kad je sve ovo obrađeno, nastavljamo pozivati ​​metodu close ().
Konačno smo ovim postigli program Struganje zaslona čitljiviji od korištenja regularnih izraza i malo robusniji u aspektu da se ne ograničavamo samo na fiksne strukture, tako možemo ispravno doći do naših podataka.
Ovime završavamo naš vodič za HTMLParser, jer vidimo da postoji mnogo načina da dođete do ovih rješenja kako biste dobili informacije s web stranice.Je li vam se svidio i pomogao ovaj vodič?Autor možete nagraditi pritiskom na ovaj gumb kako biste mu dali pozitivan bod
wave wave wave wave wave