Fișierul Robots.txt
Folosiți un fișier robots.txt pentru a instrui crawlerele motoarelor de căutare ce pagini să parcurgă și pe care să le ignore. O mică greșeală într-un fișier robots.txt poate avea efecte dramatice.

Ce este robots.txt?
Un fișier robots.txt este un fișier text care se află în directorul rădăcină al site-ului dvs. web și care oferă motoarelor de căutare instrucțiuni cu privire la paginile pe care le pot parcurge și indexa în timpul procesului de crawling și indexare.
Dacă ați citit subiectul anterior despre modul de funcționare a motoarelor de căutare, știți că în timpul etapei de crawling și indexare motoarele de căutare încearcă să găsească pagini disponibile pe web-ul public pe care să le includă în indexul lor.
Atunci când vizitează un site web, primul lucru pe care îl fac este să caute și să verifice conținutul fișierului robots.txt. În funcție de regulile specificate în fișier, acestea creează o listă cu URL-urile pe care le pot parcurge și, mai târziu, indexa pentru un anumit site web.
Ce se întâmplă dacă nu aveți un fișier robots.txt? Dacă lipsește fișierul robots.txt, crawlerele motoarelor de căutare presupun că toate paginile disponibile public ale unui anumit site web pot fi crawlate și adăugate în indexul lor.
Ce se întâmplă dacă fișierul robots.txt nu este bine formatat? Depinde de problemă. În cazul în care motoarele de căutare nu pot înțelege conținutul fișierului, deoarece este configurat greșit, acestea vor accesa în continuare site-ul web și vor ignora tot ceea ce se află în robots.txt.
Ce se întâmplă dacă blochez din greșeală accesul motoarelor de căutare la site-ul meu web? Aceasta este o mare problemă. Pentru început, acestea nu vor mai parcurge și indexa paginile de pe site-ul dvs. și, treptat, vor elimina toate paginile care sunt deja disponibile în indexul lor.
Este neapărat nevoie de un fișier robots.txt? Da, trebuie neapărat să aveți un fișier robots.txt, chiar dacă nu doriți să excludeți nicio pagină sau niciun director de pe site-ul dvs. de la apariția în rezultatele motoarelor de căutare.
De ce să folosiți un robots.txt?
Cele mai frecvente cazuri de utilizare a robots.txt sunt următoarele:
#1 – Pentru a împiedica motoarele de căutare să acceseze anumite pagini sau directoare ale site-ului dvs.. De exemplu, priviți fișierul robots.txt de mai jos și observați regulile de excludere. Aceste instrucțiuni informează crawlerele motoarelor de căutare să nu indexeze anumite directoare. Observați că puteți utiliza un * drept caracter universal.

#2 – Atunci când aveți un site web mare, crawl-ul și indexarea pot fi procese care necesită foarte multe resurse. Crawlerele de la diferite motoare de căutare vor încerca să vă parcurgă și să vă indexeze întregul site, ceea ce poate crea probleme serioase de performanță.
În acest caz, puteți utiliza robots.txt pentru a restricționa accesul la anumite părți ale site-ului dvs. web care nu sunt importante pentru SEO sau pentru poziționarea în SERP. În acest fel, nu numai că reduceți gradul de încărcare a serverului dumneavoastră, dar facilitează și accelerarați întregul proces de indexare.
#3 – Atunci când utilizați URL cloaking pentru link-urile afiliate. Acest lucru nu este același lucru cu ascunderea conținutului sau a URL-urilor pentru a păcăli utilizatorii sau motoarele de căutare, ci este un proces valid pentru a face link-urile afiliate mai ușor de gestionat.
Două lucruri importante de știut despre robots.txt
Primul lucru este că orice reguli pe care le adăugați la robots.txt sunt doar directive. Acest lucru înseamnă că depinde de motoarele de căutare să se supună și să respecte regulile.
În cele mai multe cazuri, acestea o fac, dar dacă aveți conținut pe care pe care doriți să îl excludeți din indexul lor, cea mai bună modalitate este să protejați cu parolă directorul sau pagina respectivă.
Al doilea lucru este că, chiar dacă blocați o pagină sau un director în robots.txt, aceasta poate apărea în continuare în rezultatele căutărilor dacă are linkuri de la alte pagini care sunt deja indexate. Cu alte cuvinte, adăugarea unei pagini în robots.txt nu garantează că aceasta va fi eliminată sau că nu va apărea pe web.
Cum funcționează robots.txt?
Fișierul robots are o structură foarte simplă. Există câteva combinații predefinite de cuvinte cheie/valori pe care le puteți utiliza.
Cele mai frecvente sunt: User-agent, Disallow, Allow, Crawl-delay și Sitemap.
User-agent: Specifică ce crawlere ar trebui să ia în considerare directivele. Puteți utiliza un * pentru a face referire la toate crawlerele sau puteți specifica numele unui crawler. Vedeți exemplele de mai jos.
Puteți vizualiza toate numele și valorile disponibile pentru directiva user-agent aici.User-agent: *
– include toate crawlerele.
User-agent: Googlebot
– instrucțiunile sunt destinate doar botului Google.
Disallow: Directiva instruiește un user-agent (specificat mai sus) să nu parcurgă un URL sau o parte a unui site web.
Valoarea lui disallow poate fi un fișier, un URL sau un director specific. Priviți exemplul de mai jos:

Puteți utiliza allow pentru a permite accesul la un anumit subdirector din site-ul dvs. web, chiar dacă directorul părinte este restricționat.
De exemplu, puteți interzice accesul la directorul Fotografii, dar puteți permite accesul la subdirectorul BMW, care se află sub Fotografii.
User-agent: *
Disallow: /photos
Allow: /photos/bmw/
Trebuie remarcat faptul că crawl-delay nu este luat în considerare de Googlebot.
Puteți utiliza Google Search Console pentru a controla frecvența de crawl pentru Google (opțiunea se găsește aici ).

Puteți utiliza frecvența de crawling în cazul în care aveți un site cu mii de pagini și nu doriți să vă suprasolicitați serverul cu interogări continue.
În majoritatea cazurilor, nu ar trebui să folosiți directiva crawl-delay.
Sitemap: Directiva sitemap este acceptată de principalele motoare de căutare, inclusiv de Google, și este utilizată pentru a indica locația Sitemap-ului XML.
Chiar dacă nu specificați locația sitemap-ului XML în robots.txt, motoarele de căutare îl pot găsi în continuare.
De exemplu, puteți folosi acest lucru:Sitemap: https://examplu.ro/sitemap.xml
Cum se creează robots.txt?
Crearea unui fișier robots.txt este simplă. Aveți nevoie doar de un editor de text (cum ar fi brackets sau notepad) și de acces la fișierele site-ului dvs. web (prin FTP sau control panel).
Înainte de a intra în procesul de creare a unui fișier robots, primul lucru pe care trebuie să-l faceți este să verificați dacă aveți deja unul.
Cel mai simplu mod de a face acest lucru este să deschideți o nouă fereastră de browser și să navigați la https://www.domeniultau.ro/robots.txt
Dacă vedeți ceva asemănător cu cele de mai jos, înseamnă că aveți deja un fișier robots.txt și că puteți edita fișierul existent în loc să creați unul nou.
User-agent: *
Allow: /
Cum să vă editați fișierul robots.txt
Utilizați clientul FTP preferat și conectați-vă la directorul rădăcină al site-ului dvs..
Robots.txt se află întotdeauna în folderul rădăcină (www sau public_html, în funcție de serverul dumneavoastră).
Descărcați fișierul pe PC și deschideți-l cu un editor de text.
Efectuați modificările necesare și încărcați fișierul înapoi pe serverul dumneavoastră.
Cum să creați un nou fișier robots.txt
Dacă nu aveți deja un fișier robots.txt, atunci creați un nou fișier .txt folosind un editor de text, adăugați directivele, salvați-l și încărcați-l în directorul rădăcină al site-ului dvs. web.
Important: Asigurați-vă că numele fișierului dvs. este robots.txt și nu orice altceva. De asemenea, țineți cont de faptul că numele fișierului este sensibil la majuscule, deci trebuie să fie scris cu minuscule.
Exemplu de fișier robots.txt
Într-un scenariu tipic, fișierul robots.txt ar trebui să aibă următorul conținut:
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml
Cum să vă testați și să vă validați fișierul robots.txt?
Deși puteți vizualiza conținutul fișierului robots.txt navigând la URL-ul robots.txt, cel mai bun mod de a-l testa și valida este prin intermediul instrumentului robots.txt tester și al instrumentului URL Inspection din Google Search Console.
Puteți accesa instrumentul de testare robots.txt aici.
Faceți click pe butonul Test.
Dacă totul este în regulă, butonul Test va deveni verde, iar eticheta se va schimba în ALLOWED (permis). În cazul în care există o problemă, linia care cauzează o excludere va fi evidențiată.

Puteți utiliza URL Tester (în partea de jos a instrumentului) pentru a introduce o adresă URL de pe site-ul dvs. web și a testa dacă aceasta este blocată sau nu.
Puteți face orice modificări în editor și puteți verifica noile reguli, DAR pentru ca acestea să fie aplicate în robots.txt-ul dvs. live, trebuie să MODIFICAȚI fișierul cu un editor de text și să încărcați fișierul în folderul rădăcină al site-ului dvs. (așa cum s-a explicat mai sus).
Pentru a informa Google că ați efectuat modificări în fișierul robots.txt, faceți click pe butonul SUBMIT (din ecranul de mai sus) și faceți din nou click pe butonul SUBMIT din fereastra pop-up (opțiunea 3, după cum se arată mai jos).

Concluzie
Testați fișierul robots.txt și asigurați-vă că nu blocați nicio parte a site-ului dvs. care doriți să apară în motoarele de căutare.
Nu blocați folderele CSS sau JS. Google, în timpul procesului de crawl și indexare, poate vizualiza un site web ca un utilizator real, iar dacă paginile dvs. au nevoie de JS și CSS pentru a funcționa corect, acestea nu ar trebui să fie blocate.
Dacă sunteți pe WordPress, nu este nevoie să blocați accesul la dosarele wp-admin și wp-include. WordPress face o treabă excelentă folosind tag-ul meta robots.
Nu încercați să specificați reguli diferite pentru fiecare robot al diferitelor motoare de căutare, poate deveni frustrant și dificil de actualizat. Mai bine folosiți user-agent:* și furnizați un singur set de reguli pentru toți roboții.
Dacă doriți să excludeți paginile de la indexarea de către motoarele de căutare, ar fi bine să o faceți folosind tag-ul <META name=”robots” content=”noindex, nofollow“/> în antetul fiecărei pagini și nu prin robots.txt.