Fișierul Robots.txt

Folosiți un fișier robots.txt pentru a instrui crawlerele motoarelor de căutare ce pagini să parcurgă și pe care să le ignore. O mică greșeală într-un fișier robots.txt poate avea efecte dramatice.

robots txt
Folosiți un fișier robots.txt pentru a instrui crawlerele motoarelor de căutare ce pagini să parcurgă și pe care să le ignore. O mică greșeală într-un fișier robots.txt poate avea efecte dramatice. În acest articol veți afla ce este un fișier robots.txt și cum să îl optimizați.
Unul dintre lucrurile pe care trebuie să le verificați și să le optimizați atunci când faceți SEO tehnic este fișierul robots.txt. O problemă sau o configurație greșită în fișierul robots.txt poate cauza probleme SEO critice care pot avea un impact negativ asupra poziționării și traficului dvs.

Ce este robots.txt?

Un fișier robots.txt este un fișier text care se află în directorul rădăcină al site-ului dvs. web și care oferă motoarelor de căutare instrucțiuni cu privire la paginile pe care le pot parcurge și indexa în timpul procesului de crawling și indexare.

Dacă ați citit subiectul anterior despre modul de funcționare a motoarelor de căutare, știți că în timpul etapei de crawling și indexare motoarele de căutare încearcă să găsească pagini disponibile pe web-ul public pe care să le includă în indexul lor.

Atunci când vizitează un site web, primul lucru pe care îl fac este să caute și să verifice conținutul fișierului robots.txt. În funcție de regulile specificate în fișier, acestea creează o listă cu URL-urile pe care le pot parcurge și, mai târziu, indexa pentru un anumit site web.

Conținutul unui fișier robots.txt este disponibil public pe internet. Cu excepția cazului în care nu este protejat altfel, oricine poate vizualiza fișierul robots.txt, astfel încât acesta nu este locul potrivit pentru a adăuga conținut pe care nu doriți ca alții să îl vadă.

Ce se întâmplă dacă nu aveți un fișier robots.txt? Dacă lipsește fișierul robots.txt, crawlerele motoarelor de căutare presupun că toate paginile disponibile public ale unui anumit site web pot fi crawlate și adăugate în indexul lor.

Ce se întâmplă dacă fișierul robots.txt nu este bine formatat? Depinde de problemă. În cazul în care motoarele de căutare nu pot înțelege conținutul fișierului, deoarece este configurat greșit, acestea vor accesa în continuare site-ul web și vor ignora tot ceea ce se află în robots.txt.

Ce se întâmplă dacă blochez din greșeală accesul motoarelor de căutare la site-ul meu web? Aceasta este o mare problemă. Pentru început, acestea nu vor mai parcurge și indexa paginile de pe site-ul dvs. și, treptat, vor elimina toate paginile care sunt deja disponibile în indexul lor.

Este neapărat nevoie de un fișier robots.txt? Da, trebuie neapărat să aveți un fișier robots.txt, chiar dacă nu doriți să excludeți nicio pagină sau niciun director de pe site-ul dvs. de la apariția în rezultatele motoarelor de căutare.

De ce să folosiți un robots.txt?

Cele mai frecvente cazuri de utilizare a robots.txt sunt următoarele:

#1 – Pentru a împiedica motoarele de căutare să acceseze anumite pagini sau directoare ale site-ului dvs.. De exemplu, priviți fișierul robots.txt de mai jos și observați regulile de excludere. Aceste instrucțiuni informează crawlerele motoarelor de căutare să nu indexeze anumite directoare. Observați că puteți utiliza un * drept caracter universal.

Examplu de robots.txt file
Exemplu de robots.txt file

#2 – Atunci când aveți un site web mare, crawl-ul și indexarea pot fi procese care necesită foarte multe resurse. Crawlerele de la diferite motoare de căutare vor încerca să vă parcurgă și să vă indexeze întregul site, ceea ce poate crea probleme serioase de performanță.

În acest caz, puteți utiliza robots.txt pentru a restricționa accesul la anumite părți ale site-ului dvs. web care nu sunt importante pentru SEO sau pentru poziționarea în SERP. În acest fel, nu numai că reduceți gradul de încărcare a serverului dumneavoastră, dar facilitează și accelerarați întregul proces de indexare.

#3 – Atunci când utilizați URL cloaking pentru link-urile afiliate. Acest lucru nu este același lucru cu ascunderea conținutului sau a URL-urilor pentru a păcăli utilizatorii sau motoarele de căutare, ci este un proces valid pentru a face link-urile afiliate mai ușor de gestionat.

Două lucruri importante de știut despre robots.txt

Primul lucru este că orice reguli pe care le adăugați la robots.txt sunt doar directive. Acest lucru înseamnă că depinde de motoarele de căutare să se supună și să respecte regulile.

În cele mai multe cazuri, acestea o fac, dar dacă aveți conținut pe care pe care doriți să îl excludeți din indexul lor, cea mai bună modalitate este să protejați cu parolă directorul sau pagina respectivă.

Al doilea lucru este că, chiar dacă blocați o pagină sau un director în robots.txt, aceasta poate apărea în continuare în rezultatele căutărilor dacă are linkuri de la alte pagini care sunt deja indexate. Cu alte cuvinte, adăugarea unei pagini în robots.txt nu garantează că aceasta va fi eliminată sau că nu va apărea pe web.

În afară de protejarea paginii sau a directorului cu parolă, o altă modalitate este utilizarea directivelor de pagină. Acestea se adaugă în header-ul fiecărei pagini și arată astfel: <meta name=”robots” content=”noindex”>

Cum funcționează robots.txt?

Fișierul robots are o structură foarte simplă. Există câteva combinații predefinite de cuvinte cheie/valori pe care le puteți utiliza.

Cele mai frecvente sunt: User-agent, Disallow, Allow, Crawl-delay și Sitemap.

User-agent: Specifică ce crawlere ar trebui să ia în considerare directivele. Puteți utiliza un * pentru a face referire la toate crawlerele sau puteți specifica numele unui crawler. Vedeți exemplele de mai jos.

Puteți vizualiza toate numele și valorile disponibile pentru directiva user-agent aici.User-agent: * – include toate crawlerele.
User-agent: Googlebot – instrucțiunile sunt destinate doar botului Google.

Disallow: Directiva instruiește un user-agent (specificat mai sus) să nu parcurgă un URL sau o parte a unui site web.

Valoarea lui disallow poate fi un fișier, un URL sau un director specific. Priviți exemplul de mai jos:

Exemplu de reguli de disallow în robots.txtExemplu de reguli de disallow în robots.txt
Allow: Directiva care indică în mod explicit ce pagini sau subfoldere pot fi accesate. Aceasta se aplică numai pentru Googlebot.

Puteți utiliza allow pentru a permite accesul la un anumit subdirector din site-ul dvs. web, chiar dacă directorul părinte este restricționat.

De exemplu, puteți interzice accesul la directorul Fotografii, dar puteți permite accesul la subdirectorul BMW, care se află sub Fotografii.

User-agent: *
Disallow: /photos
Allow: /photos/bmw/
Crawl-delay: Puteți specifica o valoare crawl-delay pentru a forța crawlerele motoarelor de căutare să aștepte o anumită perioadă de timp înainte de a parcurge următoarea pagină de pe site-ul dumneavoastră. Valoarea pe care o introduceți este exprimată în milisecunde.

Trebuie remarcat faptul că crawl-delay nu este luat în considerare de Googlebot.

Puteți utiliza Google Search Console pentru a controla frecvența de crawl pentru Google (opțiunea se găsește aici ).

Setarea Google Crawl rate în Google Search ConsoleSetarea Google Crawl rate în Google Search Console

Puteți utiliza frecvența de crawling în cazul în care aveți un site cu mii de pagini și nu doriți să vă suprasolicitați serverul cu interogări continue.

În majoritatea cazurilor, nu ar trebui să folosiți directiva crawl-delay.

Sitemap: Directiva sitemap este acceptată de principalele motoare de căutare, inclusiv de Google, și este utilizată pentru a indica locația Sitemap-ului XML.

Chiar dacă nu specificați locația sitemap-ului XML în robots.txt, motoarele de căutare îl pot găsi în continuare.

De exemplu, puteți folosi acest lucru:
Sitemap: https://examplu.ro/sitemap.xml

Important: Robots.txt este sensibil la majuscule și minuscule. Acest lucru înseamnă că dacă adăugați această directivă, Disallow: /Fisier.html, aceasta nu va bloca fisier.html.

Cum se creează robots.txt?

Crearea unui fișier robots.txt este simplă. Aveți nevoie doar de un editor de text (cum ar fi brackets sau notepad) și de acces la fișierele site-ului dvs. web (prin FTP sau control panel).

Înainte de a intra în procesul de creare a unui fișier robots, primul lucru pe care trebuie să-l faceți este să verificați dacă aveți deja unul.

Cel mai simplu mod de a face acest lucru este să deschideți o nouă fereastră de browser și să navigați la https://www.domeniultau.ro/robots.txt

Dacă vedeți ceva asemănător cu cele de mai jos, înseamnă că aveți deja un fișier robots.txt și că puteți edita fișierul existent în loc să creați unul nou.

User-agent: *
Allow: /

Cum să vă editați fișierul robots.txt

Utilizați clientul FTP preferat și conectați-vă la directorul rădăcină al site-ului dvs..

Robots.txt se află întotdeauna în folderul rădăcină (www sau public_html, în funcție de serverul dumneavoastră).

Descărcați fișierul pe PC și deschideți-l cu un editor de text.

Efectuați modificările necesare și încărcați fișierul înapoi pe serverul dumneavoastră.

Cum să creați un nou fișier robots.txt

Dacă nu aveți deja un fișier robots.txt, atunci creați un nou fișier .txt folosind un editor de text, adăugați directivele, salvați-l și încărcați-l în directorul rădăcină al site-ului dvs. web.

Important: Asigurați-vă că numele fișierului dvs. este robots.txt și nu orice altceva. De asemenea, țineți cont de faptul că numele fișierului este sensibil la majuscule, deci trebuie să fie scris cu minuscule.

Unde puneți robots.txt? rrobots.txt trebuie să se afle întotdeauna în directorul rădăcină al site-ului dvs. și nu în vreun folder.

Exemplu de fișier robots.txt

Într-un scenariu tipic, fișierul robots.txt ar trebui să aibă următorul conținut:

User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml

Acest lucru permite tuturor roboților să acceseze site-ul dvs. fără nicio restricție. De asemenea, se specifică locația sitemap-ului pentru a facilita localizarea acestuia de către motoarele de căutare.

Cum să vă testați și să vă validați fișierul robots.txt?

Deși puteți vizualiza conținutul fișierului robots.txt navigând la URL-ul robots.txt, cel mai bun mod de a-l testa și valida este prin intermediul instrumentului robots.txt tester și al instrumentului URL Inspection din Google Search Console.

Puteți accesa instrumentul de testare robots.txt aici.

Faceți click pe butonul Test.

Dacă totul este în regulă, butonul Test va deveni verde, iar eticheta se va schimba în ALLOWED (permis). În cazul în care există o problemă, linia care cauzează o excludere va fi evidențiată.

Instrumentul de testare Robots.txtInstrumentul de testare Robots.txt
Câteva lucruri suplimentare de știut despre instrumentul robots.txt tester:

Puteți utiliza URL Tester (în partea de jos a instrumentului) pentru a introduce o adresă URL de pe site-ul dvs. web și a testa dacă aceasta este blocată sau nu.

Puteți face orice modificări în editor și puteți verifica noile reguli, DAR pentru ca acestea să fie aplicate în robots.txt-ul dvs. live, trebuie să MODIFICAȚI fișierul cu un editor de text și să încărcați fișierul în folderul rădăcină al site-ului dvs. (așa cum s-a explicat mai sus).

Pentru a informa Google că ați efectuat modificări în fișierul robots.txt, faceți click pe butonul SUBMIT (din ecranul de mai sus) și faceți din nou click pe butonul SUBMIT din fereastra pop-up (opțiunea 3, după cum se arată mai jos).

Trimiteți informații de actualizare Robotstxt

Trimiteți informații de actualizare Robots.txt

Concluzie

Testați fișierul robots.txt și asigurați-vă că nu blocați nicio parte a site-ului dvs. care doriți să apară în motoarele de căutare.

Nu blocați folderele CSS sau JS. Google, în timpul procesului de crawl și indexare, poate vizualiza un site web ca un utilizator real, iar dacă paginile dvs. au nevoie de JS și CSS pentru a funcționa corect, acestea nu ar trebui să fie blocate.

Dacă sunteți pe WordPress, nu este nevoie să blocați accesul la dosarele wp-admin și wp-include. WordPress face o treabă excelentă folosind tag-ul meta robots.

Nu încercați să specificați reguli diferite pentru fiecare robot al diferitelor motoare de căutare, poate deveni frustrant și dificil de actualizat. Mai bine folosiți user-agent:* și furnizați un singur set de reguli pentru toți roboții.

Dacă doriți să excludeți paginile de la indexarea de către motoarele de căutare, ar fi bine să o faceți folosind tag-ul <META name=”robotscontent=”noindex, nofollow“/> în antetul fiecărei pagini și nu prin robots.txt.