Notizie: scarica ora l'ultima versione disponibile di Thunderbird!

Autore Topic: Web data extraction Plug-in  (Letto 655 volte)

0 Utenti e 2 Visitatori stanno visualizzando questo topic.

Offline Jabawack

  • Post: 1
Web data extraction Plug-in
« il: 29 Aprile 2009 15:50:07 »
Salve a tutti, sono un dottorando in informatica e uno dei temi di ricerca su cui mi sto concentrando è l'estrazione di dati dal web al fine di "costruire" informazioni strutturate a partire da normali pagine web.

Il mio obiettivo primario in questo contesto è quello di creare un sistema che in maniera automatica (o semi-automatica) applichi dei wrapper (che non sono altro che pattern di matching che dovranno essere generati da un apposito "motore") ad una pagina web ed estragga tutte le informazioni che rispettano questi determinati "criteri": una volta riconosciuti tutti gli oggetti della pagina in questione che rispecchiano la stessa struttura, le informazioni devono essere estratte e salvate in un formato strutturato (xml o varianti).

Dopo una serie di analisi ho deciso che la soluzione migliore è quella di creare un plug-in di FF, che in sostanza dovrà rispettare questi requisiti:

o   Selezione degli oggetti della pagina HTML
- Riconoscimento automatico degli oggetti della pagina, evidenziandoli al passaggio del mouse (esattamente ciò che fa la funzione "view style information" del plugin web developer)
- Nomenclatura dell’oggetto evidenziato, partendo dalla root dell’albero (html->body-> … -> <tag>) (come nel web developer o nel dom inspector)

•   Pannello degli strumenti che permetta di:
o   Creare manualmente un pattern di riconoscimento (consideriamola per semplicità una regular expression)
o   OPPURE Creare automaticamente (o semi-automaticamente) un pattern di riconoscimento partendo da un oggetto selezionato.
o   Applicare un pattern a una pagina evidenziando tutti gli oggetti con match positivo.
- Aggiungere eventuali oggetti non riconosciuti automaticamente dall’applicazione del pattern.
o   Esportare i dati degli oggetti riconosciuti, in un formato xml.

Scusandomi se mi sono dilungato nei dettagli, nella speranza che qualcuno abbia già affrontato problemi similari, volevo chiederVi:

- conoscete qualcosa che svolga funzioni simili (anche solo in parte) e che sia open-source in modo da poterne trarre ispirazione?
- non ho mai prodotto alcuna estensione per firefox quindi ogni indicazione su guide (magari anche articolate, non importa se in inglese) è ben accetta

Quando produrrò qualcosa di concreto sarò ben lieto di metterlo a disposizione di tutti, penso che in ottica web 3.0 l'estrazione di informazioni strutturate dal web sia uno degli obiettivi principali e questo tool potrebbe automatizzare molti compiti noiosi!

Grazie!
« Ultima modifica: 30 Aprile 2009 01:42:33 da miki64 »

Offline RNicoletto

  • Post: 2209
    • MondoWin
Re: Web data extraction Plug-in
« Risposta #1 il: 30 Aprile 2009 15:21:26 »
Per le guide/documentazione sulla creazione di extension qui trovi numerosi link ai quali aggiungo:

:wink:

0 Utenti e 2 Visitatori stanno visualizzando questo topic.