news

Come funzionano i motori di ricerca

10/11/2022
16 minuti di lettura

Sommario

Crawling: come i motori di ricerca analizzano un sito
- Spiega ai motori di ricerca come crawlare il tuo sito
Indexing: come interpretare e archiviare le informazioni
Ranking: la creazione delle SERP
- Query e contenuto: la pagina risponde alle esigenze dell'utente?

Glossario

Ogni giorno miliardi di utenti Internet utilizzano un motore di ricerca. Di solito, lo fanno senza sapere come funziona. Nel 1993, trovare un sito web senza avere il suo indirizzo esatto era impossibile. Due anni dopo, Altavista segnò la rivoluzione di Internet.

L'arrivo di Google nel 1998 ha spinto lo sviluppo dei motori di ricerca. Da oltre 20 anni, la multinazionale di Silicon Valley domina il mondo della ricerca online. Solo paesi come la Russia o la Cina hanno un altro motore di ricerca principale (Yandex in Russia, Buidi in Cina).

Per scoprire e classificare miliardi di siti presenti in rete, i motori di ricerca utilizzano algoritmi che prendono decisioni sulla qualità e la pertinenza delle pagine web. Ci sono tre fasi del processo:

Crawling. Prima di essere classificate nelle pagine dei risultati (SERP), i siti vengono esplorati e archiviati nei datacenter. Per fare ciò, robot chiamati spider, crawler o Googlebot vagano costantemente per il web, cliccando su tutti i link che incontrano. Le sitemap inviate dai proprietari dei siti sono un altro modo per scoprire nuove pagine. Quando un robot scopre un sito, ne analizza il contenuto, sia esso editoriale oppure no.

Indexing. L'indicizzazione è determinata in base all'argomento della pagina. Per indicizzare un sito, i motori di ricerca partono dall'analisi del testo, delle immagini e degli eventuali video presenti. Google, per esempio, sceglie di offrirli in risposta a una richiesta di un utente di Internet, se il tema si adatta ad essi. La maggior parte delle pagine che offrono contenuti unici e interessanti sono inserite nell'indice. Una pagina web potrebbe non essere indicizzata se il suo contenuto è duplicato oppure se la pagina impedisce l'indicizzazione (tramite il robots.txt o un tag noindex).
Ranking. Per capire come funziona un motore di ricerca, è necessario comprendere il suo algoritmo di pertinenza. Questo definisce la pagina indice più adatta alla richiesta, al fine di fornire la risposta più soddisfacente. L'algoritmo di Google si basa su circa 200 criteri, che hanno, ognuno, un livello di importanza diverso. Sulla base di questo algoritmo, vengono analizzati in profondità la natura dei documenti (testo, foto, video, etc.), la popolarità, la qualità dei contenuti e i siti che li mettono online. I motori di ricerca utilizzano centinaia di segnali di ranking: alcuni dei principali sono la presenza di parole chiave nel contenuto, la velocità di caricamento, la reputazione del sito, anchores e backlink e la qualità dei contenuti.

Crawling: come i motori di ricerca analizzano un sito

La scansione (crawling) è il processo di un bot che visita una pagina e ne salva una copia nel database del motore di ricerca.

Poiché una pagina non può essere visualizzata nella SERP se non è indicizzata, è fondamentale assicurarsi che la pagina possa essere scannerizzata e abbia un valore sufficiente per farlo. Esiste anche una chiara correlazione tra l'autorevolezza di un dominio e la frequenza con cui una pagina viene scansionata: le pagine popolari possono essere scansionate anche più volte al giorno. Questo porta alla conclusione che, migliorando la scansione e l'indicizzazione del sito web, si migliora anche la qualità generale del dominio.

Il numero di pagine scansionate e indicizzate potrebbe sembrare un parametro irrilevante, ma mostra come Google tratta i siti web. Se tutte le pagine inviate vengono scansionate regolarmente e la maggior parte di esse viene indicizzata, significa che il sito ha una buona autorevolezza e affidabilità.

Esistono molti parametri che influiscono sulla scansione. I principali sono:

link interni ed esterni
profondità dei link (ovvero distanza rispetto alla home)
sitemap
direttive di indicizzazione

La scansione è il processo con cui il crawler visita un sito e ne analizza i contenuti. È più importante di quanto si possa pensare: se ci sono ostacoli per il crawler, non solo la scansione diventa più lenta, ma la qualità generale del dominio peggiora.

Spiega ai motori di ricerca come crawlare il tuo sito

I motori di ricerca hanno sempre più siti da analizzare: perciò, devono arbitrare sulle risorse che utilizzeranno, applicando le quote di scansione:decisono, cioé, il numero di volte che visitano un sito, in base a diversi criteri.

La quota di scansione, chiamata anche crawling budget, dipende dal tempo trascorso su un sito. È possibile dettagliare il budget assegnato a un sito scomponendolo per numero di pagine in relazione al peso/dimensione e in relazione all'ottimizzazione del codice e del server.

Per esempio, se il tempo impiegato per il download si riduce, il numero di pagine scansionate/scaricate aumenta. La quota di scansione dipende, quindi, in gran parte dal tempo trascorso su una pagina: è problematica quando si superano le migliaia di pagine, ma se il sito è molto lento, ci sono URL duplicati da URL parametrizzati, ad esempio, non esiste una preferenza.

I motori di ricerca, infatti, devono eseguire la scansione di ogni versione: se il tuo sito, per esempio, conta 100 pagine, queste si trasformano in 300 da scansionare, se hai delle url parametrizzate o se dai accesso, ad esempio, alla versione http. Aggiungi a questo che, se il tuo sito è lento, la tua quota di scansione può essere superata molto rapidamente: le nuove pagine, quindi, non verranno scoperte oppure le vecchie non verranno più scansionate. Il peggioramento del ranking è una conseguenza che passa attraverso pagine aggiornate e non rivisitate, contenuti non scansionati, etc.

Promuovere un sito che sia ben costruito e ben congegnato per la SEO è indispensabile, perché ai motori di ricerca piace che semplifichiamo il loro lavoro. Non è detto, però, che siano necessarie molte pagine o molti contenuti per fare un buon lavoro SEO.

Per spiegare ai motori di ricerca come crawlare il tuo sito, costruisci una mappa, metto a punto un robot txt con indicazioni precise rispetto ai contenuti che vuoi venano visitati o meno e migliora la velocità delle tue pagine: servirà sia per il crawl budget sia per la customer experience sia ai fini del ranking (page experience).

Per ottimizzare il crawl budget devi:

migliorare la velocità del sito
aggiornare i contenuti: elimina le pagine o vieta loro di eseguire la scansione con il file robots.txt
evitare il più possibile JS e CSS in outsourcing
mostrare solo pagine utili

Robots.txt

Il Robots.txt è sempre considerato dai crawler, che, prima di tutto, lo visitano per apprendere le sue linee guida mentre esplorano un sito. Il robot eseguirà, quindi, la scansione tenendo conto di ciò che gli hai detto di eseguire.

È, quindi, importante approfittarne per aggiungere pagine non scansionabili a quelle a cui non sono stati aggiunti tag di indice. Ecco alcuni esempi di sintassi:

User-agent: *

La stella indica che le tue direttive si applicano a tutti i robot, altrimenti puoi specificare in questo modo:

User-agent: Googlebot

Disallow: /cartella/

Disallow impedisce ai robot di eseguire la scansione. Per esempio, per limitare l'accesso alla directory del sito chiamata cartella, la stringa da digitare è www.miodominio.it/cartella/. In questo modo, l'intera parte della directory non verrà scansionata.

Allow: /cartella/immagini

Allow consente di indicare agli user agent che la directory deve essere sottoposta a scansione. Qui indichiamo che la directory images di cartella dev'essere sottoposta a scansione.

Disallow: /*.pdf$

Tutto ciò che termina con .pdf non verrà sottoposto a scansione.

Disallow: /?s=

Permette, ad esempio, di bloccare l'indicizzazione di tutte le url che contengono il parametro s=.

Le direttive sono quindi altamente personalizzabili in base alle nostre esigenze e alla struttura del sito.

Sitemap

La Sitemap.xml è una struttura ad albero: si tratta di una mappa contentene tutte le url delle pagine del sito che vuoi mostrare ai motori di ricerca. È importante crearne una per il tuo sito web, indipendentemente dal numero di pagine (a meno che il tuo sito non abbia un'unica pagina). Una volta creata, non dimenticare di inviarla alla GSC (Google Search console) per facilitare la scansione e per indicare la sua posizione nel robots.txt. È, quindi, necessario verificare nel rapporto dell'SGC che gli URL siano tutti validi.

L'ideale sarebbe avere: numero di pagine scansionabili = numero di pagine scansionate. L'ottimizzazione della scansione non è automatica, quindi se non viene eseguita, dovrai migliorare il tuo budget di scansione.

Una pagina sottoposta a scansione non è necessariamente una pagina indicizzata, in particolare se:

la scansione è bloccata dal file robots.txt
la pagina è protetta da password
c'è un reindirizzamento
la pagina non rispetta i criteri minimi di qualità
la pagina è troppo distante dalla home page
la pagina non è pesente nella sitemap

Se tutto è perfetto, il numero di pagine scansionabili è uguale al numero di pagine scansionate, che è uguale al numero di pagine indicizzabili, che è uguale al numero di pagine indicizzate.

Parametri URL in GSC

I parametri URL sono valori impostati all'interno dell'URL di una pagina. Ciò consente a una pagina di mostrare un numero infinito di visualizzazioni.

I parametri attivi possono modificare il contenuto della pagina per gli utenti, ordinandone i contenuti in un determinato modo. Ecco alcuni esempi di come potrebbero apparire i parametri attivi, ordinando una pagina di abiti in modi diversi.

http://www.miodominio.it/prodotti/abiti/?sort=prezzo_alto
http://www.miodominio.it/prodotti/abiti/?sort=prezzo_basso
http://www.miodominio.it/prodotti/abiti/cerca?colore=rosso&taglia=40

I parametri passivi non hanno alcun effetto sul modo in cui i contenuti vengono visualizzati dagli utenti, ma possono tenere traccia delle visite o dei referral. Ecco alcuni esempi di come appaiono i parametri passivi negli URL:

http://www.miodominio.it/prodotti/abiti/?sessionid=12345
http://www.miodominio.it/prodotti/abiti?utm_source=google&utm_medium=email&utm_campaign=param

In entrambi i casi, la maggior parte dei parametri non influisce sul contenuto effettivo della pagina, il che significa che agli occhi di un motore di ricerca, tutte le pagine sono duplicate.

Come configurare, allora, i parametri URL? Search Console dispone di uno strumento che indicherà a Google quali parametri ignorare, impedendo la duplicazione degli URL parametrizzati.

Questo strumento va usato con cautela: se commetti un errore ed escludi in modo errato gli URL, le pagine o l'intero sito potrebbero scomparire dalla ricerca.

Anche Search Console, inoltre, non è onnipotente: se hai parametri nella sitemap o se li utilizzi nei collegamenti interni, ciò potrebbe confondere Google e indurlo a indicizzare gli URL parametrizzati.

Ad aprile 2022, lo strumento è stato ritirato: Google, infatti, ha considerato che lo strumento fosse utile in una percentuale irrilevante di casi e che, dunque, avesse uno scarso valore tanto per gli utilizzatori quanto per Search Console.

Indexing: come interpretare e archiviare le informazioni

Il fatto che un sito sia stato scansionato da un motore di ricerca non significa che venga indicizzato. L'indice è il luogo dove sono archiviate le pagine rilevate dal motore di ricerca. Dopo aver scansionato una pagina, i crawler la indicizzano, per poterne analizzare il contenuto. Le informazioni relative a ogni pagina, dunque, vengono inserite nell'indice del motore di ricerca. I motori di ricerca memorizzano nella cache le pagine web scansionate, per cui la versione memorizzata nella cache di una pagina rifletterà un'istantanea dell'ultima volta che un crawler ha scansionato la pagina.

Le scansioni dei crawler sono più frequenti, ovviamente, per i siti che hanno più traffico. Per scoprire la versione cache di una pagina, puoi fare clic sul menu a tendina accanto all'URL e selezionare il pulsante Memorizza nella cache. In alternativa, puoi aggiungere il la parola Cache davanti all'Url oppure visualizzare la versione testuale del sito per determinare se il contenuto importante sia stato scansionato e memorizzato nella cache in modo efficace. Se ritieni che una pagina del tuo sito che prima era nell'indice di Google non venga più visualizzata, puoi inviare manualmente l'URL a Google utilizzando lo strumento Invia URL nella Search Console.

Direttive all'interno del robots.txt

Per una pagina che si trova già nell'indice di Google, Googlebot (il crawler di Google) deve eseguire nuovamente la scansione per scoprire se è cambiata e per riflettere tali (se presenti) modifiche nelle pagine dei risultati. Esistono, però, dei meccanismi che consentono di limitare le azioni di Google. Una di queste è impartire il blocco della scansione tramite il file robots.txt. Per farlo, è necessario indicare gli URL delle pagine per le quali desideri bloccare l'accesso: queste direttive devono essere pubblicate nel file robots.txt. Ma Google rispetta sempre le direttive del file robots.txt?

Per quanto sorprendente possa sembrare, i motori di ricerca. in realtà, considerano le regole che gli chiedi di seguire nel file robots.txt come linee guida, non come obblighi. Chiaramente, il più delle volte ne tengono conto, ma non nel 100% dei casi. L'URL è solo un'indicazione che i motori di ricerca spesso (ma non necessariamente) rispettano. Il noindex (meta tag o intestazione HTTP) è un obbligo:i motori di ricerca, quindi, ne tengono sempre conto quando lo rintracciano.

Robots Meta tag

I meta tag sono frazioni di codice che impartiscono istruzioni ai robot sulle modalità di esecuzione di scansioni e indicizzazioni dei contenuti.

Differiscono dalle direttive dei robots.txt perché danno istruzioni più precise su come eseguire la scansione e indicizzare il contenuto di una determinata pagina.

I Robots meta tag, in pratica, comunicano ai crawler come e se scansionare e indicizzare i contenuti di una pagina. I crawler, per parte loro, acquisiscono le direttive e le considerano come suggerimenti efficaci.

Come per le istruzioni inserite nel file robots.txt, i crawler non sono tenuti a seguire le tue indicazioni, quindi è possibile che alcuni bot ignorino le istruzioni, scansionino e indicizzino il contenuto delle tue pagine.

I Robots meta tag non sono un buon meccanismo di sicurezza: se hai informazioni private e non vuoi che siano pubblicamente disponibili, scegli un approccio più sicuro, come la protezione con password, per evitare che visitatori e robot consultino pagine riservate.

I Robots meta tag fanno parte del codice HTML di una pagina web. Appaiono come elementi di codice nella sezione di una pagina web. Puoi usare più di una direttiva in una pagina, a condizione che siano rivolte allo stesso crawler: separali semplicemente con virgole.

Se, invece, desideri fornire istruzioni a diversi crawler di ricerca, dovrai utilizzare tag separati che indirizzeranno ciascuno di loro.

X meta tag

Mentre i Robots meta tag consentono di controllare il comportamento dell'indicizzazione a livello di pagina, gli X meta tag sono inclusi nell'intestazione HTTP per controllare l'indicizzazione di una pagina nel suo insieme, nonché elementi molto specifici di una pagina.

Sebbene sia possibile utilizzare gli X meta tag per eseguire le stesse direttive di indicizzazione dei Robots Meta tag, la direttiva X meta tag offre maggiore flessibilità e funzionalità, perché consente l'uso di espressioni regolari, l'esecuzione di direttive di indicizzazione su file non HTML e l'applicazione di parametri a livello globale.

Per utilizzare gli X meta tag, devi avere accesso al file header.php, .htaccess o al server del tuo sito web. Da uno di questi file, aggiungi il markup x-robots-tag per la configurazione del tuo server specifico, inclusi eventuali parametri. L'utilizzo degli X meta tag consente di:

controllare l'indicizzazione di contenuti non HTML (come i video)
bloccare l'indicizzazione di un particolare elemento di una pagina (come un'immagine o un video), ma non quella della pagina stessa
verificare l'indicizzazione se non hai accesso al codice HTML di una pagina (in particolare alla sezione ) o se il tuo sito utilizza un'intestazione globale che non può essere modificata
aggiungere regole per determinare se una pagina debba essere indicizzata o meno (ad esempio, se un utente ha commentato più di 5 volte, indicizza la pagina del suo profilo).

Ranking: la creazione delle SERP

SERP è l'acronimo del termine Search Engine Result Page ovvero la lista dei risultati che vengono visualizzati quando un utente effettua una ricerca su un motore di ricerca. Ogni pagina offre una serie di collegamenti URL e descrizioni del prodotto o servizio offerto.

Quando un visitatore fa una domanda nella barra di ricerca, il motore di ricerca gli offre una pluralità di risultati. La SERP è composta da link a pagamento e link organici. Sui motori di ricerca, i link a pagamento di solito si trovano al di sopra di tutti i risultati in una sezione specifica, seguono i risultati organici. In fondo alla pagina è possibile scorrere gli altri risultati cliccando sulle pagine seguenti.

I motori di ricerca classificano i risultati organici (non a pagamento) in base a diversi criteri di qualità. I principali criteri utilizzati dalla maggior parte dei motori di ricerca per classificare un URL sono:

la qualità dei contenuti offerti su un sito web
la frequenza di pubblicazione di nuovi contenuti
l'esperienza dell'utente
il numero di link creati (linkbuilding)
la frequenza di rimbalzo

È possibile distinguere la pagina 1 dei risultati della ricerca chiamandola SERP 1, la pagina 2 con SERP 2 e così via.

Poiché i motori di ricerca selezionano i migliori siti web presenti per proporli agli utenti, è importante ottimizzare la SEO della tua piattaforma. Esistono diverse tecniche SEO che possono aiutare a promuovere la visibilità di un sito web.

I criteri di ranking dei motori di ricerca sono in continua evoluzione, tanto che a volte diventa difficile seguirli. In SEO, ciò che era vero ieri non è necessariamente vero oggi. Esistono, però, 3 tipologie di criteri che influenzano il ranking sulle SERP:

Contenuto. Quando un utente cerca una parola chiave, i motori di ricerca favoriscono le pagine il cui contenuto fornisce tutte le risposte alla query iniziale. Per questo è importante creare contenuti completi, esaurienti e di qualità che rispondano in modo approfondito alle esigenze degli utenti di Internet. Quando i motori di ricerca presentano i risultati sulla SERP, l'utente può scegliere tra diversi siti che offrono contenuti diversi. Perciò, dovranno trovare contenuti unici: questo è il motivo per cui i motori di ricerca evitano di evidenziare quelli duplicati
Popolarità. L'algoritmo si basa sul PageRank (PR), che analizza i link in concomitanza con il sistema di ranking delle pagine utilizzato dal motore di ricerca. I motori di ricerca valutano, quindi, la popolarità di un sito contando il numero di link rilevanti da altri siti web
Tecnica. La valutazione riguarda l'uso corretto dei tag html e l'ottimizzazione per smartphone. Il telefono, infatti, è il mezzo più utilizzato per navigare in internet: secondo uno studio condotto da BroadBandSearch*, il traffico mobile è aumentato del +222% negli ultimi 7 anni. Attualmente, rappresenta la metà del traffico mondiale. L'esperienza dell'utente è ora al centro del percorso del cliente sul Web, quindi è di fondamentale importanza che i siti Web mostrino contenuti adattati agli schermi degli smartphone.

Query e contenuto: la pagina risponde alle esigenze dell'utente?

Sbarcato a fine 2019, BERT ha provocato un vero e proprio tsunami nel mondo della SEO. Dietro questo acronimo si nasconde uno degli aggiornamenti più importanti di Google: il Bidirectional Encoder Representations from Transformers è simile al principio del deep learning. Google è ora in grado di rilevare il contesto di una query e capire quale intento di ricerca si nasconde dietro: il content marketing qualitativo viene premiato.

Anche se la ricerca vocale non è esplosa come previsto, non è da trascurare nelle pratiche SEO perché sta evolvendo rapidamente. Con quasi la metà delle ricerche vocali eseguite da uno smartphone, il modo migliore per ottimizzare i contenuti è attraverso i dati strutturati.

I link, siano essi intessuti all'interno di un sito web o da un sito esterno, pesano molto nella SEO. La potenza e la portata del profilo dei link esterni di cui gode un sito consentono a Google di giudicarne la pertinenza, la notorietà e la popolarità. Per quanto riguarda la mesh interna, rivela ai motori di ricerca il numero di contenuti collegati in uno stesso sito e consente ai robot di spostarsi facilmente da una pagina all'altra durante la loro scansione. I collegamenti non sono quindi da prendere alla leggera e questo criterio manterrà la sua importanza nei prossimi anni.

Oggi, circa il 90% dei contenuti non genera traffico sul web: un disastro per le aziende che investono risorse in digitalizzazione. Per invertire la tendenza è necessario dare priorità all'ottimizzazione dei contenuti ovvero elaborare pagine che soddisfino le ricerche degli utenti di Internet, organizzando team che si occupino di produzione editoriale.

Fonte: https://www.broadbandsearch.net/blog/mobile-desktop-internet-usage-statistics