L’indicizzazione è il primo passo per un buon posizionamento SEO, molte volte si tende a sottovalutare l’ottimizzazione tecnica del sito e puntare solamente nell’ottimizzazione on-page e off-page.

Non occuparsi della parte tecnica può essere un grave errore e fonte di molti problemi di posizionamento. Nell’analisi tecnica rientrano robots.txt, tag meta robot, sitemap XML, microformati e tag X-Robot.

In particolare oggi andremo ad approfondire il robots.txt e come impostarlo.

Cos’è il robots.txt

Il robots.txt è un codice in formato testuale che guida i crawler dei motori di ricerca nell’indicizzazione del sito. Il suo compito è quello di dare comandi ben precisi ai crawler dicendogli come eseguire la scansione del sito web.

Le direttive su come scrivere un file robots.txt sono presenti nel “Protocollo di esclusione robots”, redatto nel 1994 e successivamente ampliato. In questo protocollo sono presenti le direttive alle quali tutti i motori di ricerca si attengono nella scansione del web.

Da come puoi intuire, il posizionamento sui motori di ricerca parte tutto dall’indicizzazione del nostro sito, ma se il nostro file robots.txt non è compilato bene, la corretta indicizzazione è compromessa.

Dove controllare il file robots.txt

Per controllare il file robots.txt su un qualsiasi sito, ti basterà digitare il www.nomesito.com/robots.txt.

Ad esempio:

www.giovannidileo.com/robots.txt

Come si presenta

Una volta fatta la ricerca, la pagina che si presenterà, sarà di questo tipo ↓

User-agent: * 
Disallow: /

In questo caso abbiamo preso un file standard ed il suo significato è il seguente:

L’asterisco “*” dopo User-agent stà a significare che si rivolge ai bot di tutti i motori di ricerca, se si voleva restringere il comando solo al bot di google era necessario mettere Googlebot al posto di “*”.

La seconda riga, “Disallow”, seguita dalla sbarra “/” indica ai motori di ricerca di non scansionare nessuna pagina del sito.

Come impostare il file robots.txt

Quando impostiamo un file robots.txt il nostro obbiettivo deve essere quello di far scansionare a Google (ma vale anche per gli altri motori di ricerca) solo le pagine che vogliamo far vedere al cliente e che rappresentano un reale valore aggiunto.

Comando disallow

Quindi, poichè i siti hanno sicuramente alcune pagine di scarso valore o che comunque non devono essere visionate dagli utenti, le dobbiamo “nascondere”.

Come?

Con il comando Disallow.

Quali pagine è bene non far scansionare a Google?

Ce ne sono alcune che ti mostrerò di seguito che è bene non mostrare:

  • pagine con contenuti duplicati
  • pagine relative a prodotti o servizi accessibili da diversi URL
  • pagine di errore
  • pagine admin
  • pagine account
  • carrello della spesa
  • pagine di ringraziamento

Per farti rendere l’idea, ti riporto alcuni diallow presenti nel robots.txt di Zalando.

User-agent: * 
Disallow: /wishlist/*
Disallow: /opinions*
Disallow: /reco/*
Disallow: /*.*/
Disallow: *?*activation_date=*
Disallow: *?*assortment_area=*
Disallow: *?*channel=*
Disallow: *?*den=*
Disallow: *?*dir=*
Disallow: *?*discount=

Come puoi capire i disallow non sono uguali per tutti i siti, ma varia dalla tipologia di sito web o ecommerce che gestisci.

È possibile impedire la scansione anche solo di un URL:

Disallow: /nome-categoria/pagina-da-non-scansionare

Con il comando disallow, abbiamo quindi visto come nascondere dalla scansione i contenuti che non desideriamo far vedere a Google, ma come possiamo fare per risorse ben specifiche che vogliamo far scansionare?

Utilizziamo il comando Allow.

Comando Allow

Al contrario del disallow, allow ci consente di dire a googlebot: questo determinato contenuto lo puoi scansionare. Ad esempio:

User-agent: * 
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

In questo caso si dice al bot di Google che all’interno di “wp-admin” solo un file deve essere scansionato, ovvero: “admin-ajax.php”.

Bene abbiamo visto fino ad ora come impostare il robots.txt e quali comandi sono necessari:

  • User agent: seguito da “*” se i comandi che seguono si riferiscono a tutti i bot
  • Disallow: per impedire la scansione di determinate pagine
  • Allow: per far scansionare pagine ben precise

Questo punto è bene precisare che il comando disallow non impedisce a Google di non far indicizzare una pagina, infatti per impedire anche l’indicizzazione si deve ricorrere ai tag meta robots.

Questi ultimi vengono spesso confusi con il robots.txt, ma non sono la stessa cosa.

Tag meta Robots

Vediamo ora come impedire l’indicizzazione di una pagina e se seguire o meno i link presenti. Per fare questo dobbiamo ricorrere a dei comandi da inserire all’interno delle pagine web ed in particolare nel blocco head.

Quali sono i tag meta robots

I comandi a cui facciamo riferimento sono i tag meta robots:

  • “index”: indica ai bot che possono indicizzare la pagina
  • “noindex”: indica ai bot di non indicizzare la pagina
  • “follow”: indica ai bot di seguire i collegamenti presenti nella pagina
  • “nofollow”: indica ai bot di non seguire i collegamenti presenti nella pagina

È possibile utilizzare anche:

  • “all”: che sta a significare “index,follow”
  • “none”: che vuol dire “noindex,nofollow”

Un altro comando utile può essere:

  • “Noarchive”: impedisce a Google di inserire il sito nell’archivio “cache”.

Dove si inseriscono i tag meta robots

I tag meta robots si inseriscono all’interno del blocco head delle pagine web:

<head>
<meta name=”robots” content=”index,follow”>
</head>

In questo caso abbiamo detto al bot di indicizzare la pagine e seguire i collegamenti contenuti all’interno.

<head>
<meta name=”googlebot” content=”noindex,nofollow”>
</head>

In quest altro esempio abbiamo specificato che le regole valgono solo per il bot di Google (googlebot), e che i contenuti non devono essere indicizzati e i collegamenti non seguiti.

Conclusione

Il robots.txt ed i tag meta robots sono due cose differenti.

Il file robots.txt è visonabile aggiungendo l’estensione robots.txt dopo il nome dominio. Include direttive per quanto riguarda la scansione o meno delle pagine del sito.

Esso non impedisce l’indicizzazione, che deve essere impedita utilizzando i tag meta robots all’interno delle pagine. I tag meta robots includono le direttive relative all’indicizzazione e quindi permettono o meno l’indicizzazione nelle SERP.

I tag meta robots vanno aggiunti in ogni pagina del sito.

LEAVE A REPLY

Please enter your comment!
Please enter your name here