Pagina iniziale | Navigazione |
Google

Web crawler

Un Web crawler (anche conosciuto come Web spider) è un programma che passa in rassegna il World Wide Web in un modo metodico e automatizzato. Un web crawler è un tipo di bot (programma o script che automatizza delle operazioni tipicamente eseguite da utenti umani). I web crawler non mantengono soltanto una copia di tutte le pagine visitate per poi successivamente analizzarle - per esempio da un motore di ricerca ma inoltre indicizzano queste pagine per rendere la ricerca più veloce e precisa.

In generale, il web crawler si avvia con una lista di URL da visitare. Mentre visita questi URL, identifica tutti gli hyperlink nella pagina e li aggiunge alla lista di URL da visitare. Il processo o è concluso manualmente, o dopo che un determinato numero di collegamenti sia percorso.

I web crawler tipicamente diluiscono le visite in periodi di tempo abbastanza larghi, perché accedono a molte più pagine di un utente (umano) normale e possono rallentare notevolmente la visita di un sito ai normali utenti se accedono ripetutamente alle stesse pagine.

Per i motivi simili, i web crawler sono obbligati ad obbedire al protocollo "robots.txt", file nel quale i proprietari di Web site possono indicare quali pagine non dovrebbero essere analizzate.


GNU Fdl - it.Wikipedia.org




Google | 

Enciclopedia |  La Divina Commedia di Dante |  Mappa | : A |  B |  C |  D |  E |  F |  G |  H |  I |  J |  K |  L |  M |  N |  O |  P |  Q |  R |  S |  T |  U |  V |  W |  X |  Y |  Z |