Creato da pastuweb.com
Share My Page
My Social Accounts
Account FaceBook Account LinkedIn Account Twitter Account Google Plus Account Git Hub

Questo è un esempio di pagina HTML, nello specifico è una delle migliaia di pagine dello Storico delle Elezioni del Ministero dell'Interno.

E' una piccolissima parte del codice che ho sviluppato per scannerizzare l'intero storico del Ministero e per popolare in un secondo momento una mappa custom di Google Maps ai fini della mia Tesi di Laurea.

http://elezionistorico.interno.it/index.php?tpel=C&dtel=13/04/2008&tpa=I&tpe=A&lev0=0&levsut0=0&es0=S&ms=S

(provate a fare un copia-incolla sul Browser e vedrete cosa verrà estrapolato dallo scraper)

Qui sotto invece viene mostrato il codice del Web Scraper scritto in Java:

package appuntivari.webscrapers.test;
 
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.DomNodeList;
import com.gargoylesoftware.htmlunit.html.HtmlElement;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
 
public class TestStampaTabella {
 
public static void main(String[] args) throws Throwable{
 
WebClient browser = new WebClient();
HtmlPage page = browser.getPage("http://elezionistorico.interno.it/index.php?
tpel=C&dtel=13/04/2008&tpa=I&tpe=A&lev0=0&levsut0=0&es0=S&ms=S");
 
DomNodeList<HtmlElement> tables = page.getElementsByTagName("table");
for (HtmlElement table : tables) {
if("dati".equals(table.getAttribute("class"))){
DomNodeList<HtmlElement> trs = table.getElementsByTagName("tr");
for (HtmlElement tr : trs) {
DomNodeList<HtmlElement> ths = tr.getElementsByTagName("th");
for (HtmlElement th : ths) {
System.out.println("th: "+th.asText());
}
DomNodeList<HtmlElement> tds = tr.getElementsByTagName("td");
for (HtmlElement td : tds) {
System.out.println("td: "+td.asText());
}
System.out.println("==============");
}
}
}
 
}
}
 
Quello che verrà visualizzato non è altro che un conteggio di tutti i tag <table> della pagina passata come URL allo scraper e in più verrà stampato anche il contetnuto di alcuni tags <tr>, <th> e <td>.
 
Esempio di Output:
Esempio Web Scraper tabelle
 
You can find this project on my GitHub Repository at this repository URL: https://github.com/pastuweb/web-scrapers-java
Average (1 Vote)
The average rating is 5.0 stars out of 5.