Il file robots.txt può trasformarsi in uno strumento seo molto potente per ottimizzare l’indicizzazione di wordpress.
In questa guida illustrerò alcuni suggerimenti per utilizzare al meglio il file robots.txt per indirizzare i motori di ricerca sui contenuti più importanti e su come segnalare parti del CMS che non riteniamo debbano venir indicizzate.
Che cos’è il robots.txt
Prima di iniziare a “smanettare” con il tuo robots.txt è bene conoscere cosa può fare e cercare di padroneggiarlo al meglio.
Questo perché se da una parte è vero che può essere uno strumento molto utile se utilizzato male può arrivare a far sparire il vostro sito dai motori di ricerca.
Per prima cosa diciamo che il file robots.txt non è un file di wordpress, ma è un file utilizzabile in tutti i siti web.
E’ un file di testo che contiene una serie di regole che i motori di ricerca dovrebbero seguire.
In pratica con queste regole puoi segnalare la tua sitemap, bloccare alcune pagine dall’indicizzazione e negare/permettere ai singoli motori di ricerca di scansionare il tuo sito in cerca di nuovi contenuti.
Ora ti chiederai perché mai uno dovrebbe dire a google di non indicizzare del contenuto dal tuo sito.
Esempio
www.miosito.it/blog (ok, i miei articoli vanno indicizzati)
www.miosito.it (ok, questa è la mia home e va indicizzata)www.miosito.it/wp-admin (No, non è utile che questa pagina venga indicizzata)
www.miosito.it/cookie-policy (No, non è utile che questa pagina venga indicizzata)
Indicizzare tutto, anche le pagine che non sono interessanti / utili all’utente è uno dei più grandi errori che potete fare oggi con il SEO.
ATTENTI ALL’ERRORE SEO
Con gli ultimi aggiornamenti del suo algoritmo oggi google da un valore importante al comportamento degli utenti che visitano il tuo sito. Facciamo un esempio un pò assurdo, tu hai un bel sito che parla di SEO per wordpress e la tua “Privacy Policy” viene indicizzata. Per qualche strano motivo gli utenti che cercano “Consigli SEO per wordpress” finisco per cliccare sulla tua pagina della privacy policy. Cosa fanno secondo te? vanno via… ecco google per questa cosa ti penalizzerà perché interpreterà questo comportamento degli utenti come un segnale che il tuo sito non è utile a chi cerca “Consigli SEO per wordpress”. Anche se questo è un esempio un pò assurdo è per far capire che è meglio indicizzare solo le pagine con contenuti utili agli utenti.
Torniamo al nostro file di testo che di solito è posizionato nella root (directory principale) del tuo sito web.
Le principali regole che potrete trovare dentro al robots.txt sono le seguenti:
User-agent: [Nome dell'user-agent utilizzato dal motore di ricerca]
Disallow: [Indirizzo/i da bloccare / non indicizzare]
Allow: [Indirizzo/i da indicizzare]
Sitemap: [Indirizzo della tua Sitemap XML]
Se non esplicitamente indicato nel file le risorse, se trovate, comunque vengono indicizzate.
Ecco come appare il robots.txt che utilizziamo su SEOPress.it:
User-agent: *
# con il cancelletto possiamo aggiungere dei commenti
Disallow: /cgi-bin/
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://seopress.it/sitemaps.xml
In pratica, nel nostro caso, abbiamo semplicemente detto a tutti i motori di ricerca (user-agent: *) di non indicizzare le cartelle cgi-bin e wp-admin (con la sola eccezione di admin-ajax.php) e indicato l’url preciso della sitemap.
Chiaramente potete e dovete personalizzare il file robots.txt in base alle vostre esigenze.
Per tornare all’esempio dell’errore nell’indicizzare la pagina termini e condizioni il tutto si potrebbe risolvere aggiungendo un:
Disallow: /termini-condizioni/
Dove /termini-condizioni/ è lo slug – permalink della fantomatica pagina da escludere dai motori di ricerca.
Altre regole del robots.txt usate comunemente e che potete usare senza problemi sono:
Consigli
Disallow: /wp-includes/
Disallow: /readme.html
Disallow: /license.txt
Disallow: /xmlrpc.php
Disallow: /wp-login.php
Disallow: /wp-register.php
Regole avanzate del robots.txt
Con il simbolo / indichiamo l’url principale e tutte le sottocartelle e file, in pratica tutto il sito.
Allow: / (abilita tutto il sito)
Disallow: / (blocca tutto il sito)
Il carattere jolly * viene utilizzato per restituire una serie di risultati
Allow: /*.php (abilita alla ricerca tutti i file php)
Disallow: /*.txt (blocca l'indicizzazione per i tutti i file txt)
Il carattere $ è utilizzato come “terminatore” di frase
Allow: /*.php$
# ad esempio questa regola si comporterebbe in questo modo:
www.miosito.it/index.php (INDICIZZATO)
www.miosito.it/index.php?id=23 (NON INDICIZZATO)
Per i più curiosi e smanettoni rimando alle referenze del robots.txt di google developers
Plugin per gestire robots.txt per wordpress
Ci sono svariati plugin per gestire il file robots.txt alcuni che già danno delle regole di base. Noi consigliamo di operare direttamente sul file di testo, non serve un plugin per editare un txt. Al massimo segnalo la funzionalità del plugin SEOpress per la gestione di un virtual robots.txt.
Come verificare il corretto funzionamento di un robots.txt
Quando avete finito di personalizzare il vostro robots.txt e siete sicuri di aver fatto un buon lavoro allora è arrivato il momento di testarlo.
La procedura per verificare il buon funzionamento di un file robots.txt è molto semplice.
C’è un ottimo strumento messo a disposizione da google, il Robots.txt testing tool.
Per prima cosa verificate se ci sono errori o avvisi, nel caso va corretta la sintassi delle regole.
Se tutto va bene e non ci sono errori potete provare a simulare delle richieste inserendo degli url in fondo e poi cliccando su testa.
In questo modo avrete la certezza che i vostri contenuti buoni siano visibili dal motore di ricerca e quelli non buoni siano bloccati.
Conclusioni
Quindi mi raccomando non fate l’errore che molti fanno, il robots.txt non server per gestire i “DO INDEX” e i “NO INDEX” ma per dire quali risorse del vostro blog devono apparire nelle ricerche.
Spero sia tutto più chiaro ora.
Mi raccomando, se avete dubbi o domande da fare commentate pure in questo articolo.
A disposizione per chiarirvi ulteriormente le idee sul robots.txt e su tutte le sue applicazioni legate al seo di wordpress.