news
Crawler
-
10/11/2022
-
2 minuti di lettura
Il termine crawler designa un robot Internet. Concretamente, è un software che esplora il web per analizzare il contenuto dei documenti visitati e archiviarli in un indice. Il crawler, quindi, naviga costantemente, autonomamente ed automaticamente tra siti e pagine Internet alla ricerca di nuovi contenuti o di eventuali aggiornamenti di contenuti già esplorati.
Il passaggio dei crawler non è dannoso per il sito: dietro la loro attività, infatti, c'è la missione di indicizzare le pagine web, in base alla qualità del contenuto e, quindi, di aiutare i motori di ricerca a classificarle nei risultati di visualizzazione.
Come funziona un crawler?
I crawler sono programmati per navigare sul web con obiettivi specifici: svolgono un'attività che segue le istruzioni loro impartite. Ancora prima di Google, il motore di ricerca AltaVista utilizzava un crawler per svolgere questa stessa missione.
I crawler seguono diversi percorsi per raggiungere i documenti da esplorare: partono dai risultati che già esistono nei motori di ricerca, seguono una lista, obbediscono a invii oppure seguono i link che incontrano durante la loro esplorazione.
Ogni motore di ricerca ha le sue regole. Sapere quanta parte di Internet sia esaminata da questi bot è impossibile: si stima che ammonti a una percentuale compresa tra il 40 e il 70%.
Quali sono i bot crawler attivi su Internet?
Conoscere quali sono i bot crawler attivi su Internet è utile per distinguerli da quelli dannosi. Uno dei più conosciuti è quello utilizzato da Google: Googlebot, che ha diverse versioni (Googlebot Desktop, Googlebot Mobile e Mediabot). Ogni motore di ricerca ha un crawler diverso: quello di Bing si chiama Bingbot, Baidu ha Baidu Spider, Yandex Robot è il crawler di Yandex e Slurp è quello di Yahoo.
Evitare i cattivi crawler con un file robots.txt può essere complicato perché ne vengono creati continuamente. Perciò, è una buona pratica attivare una serie di difese preventive o ricorrere a un servizio di gestione dei bot come Imperva o Cloudflare.