Crawling și indexare: Ce sunt și cum afectează SEO
Controlați pe deplin procesul de crawl și indexare ale site-ului dvs. prin comunicarea preferințelor dvs. către motoarele de căutare.

Cum indentificați erorile cu ajutorul Idenx Cover Report
Index Cover Report este disponibil în Google Search Console și vă arată care dintre paginile dvs. au fost indexate cu succes de Google și care nu au fost indexate din cauza unei erori.
Pentru fiecare pagină, puteți obține mai multe detalii despre eroare și puteți solicita Google să reindexeze pagina respectivă sau site-ul în ansamblu.
Conectați-vă la Google Search Console și selectați domeniul dvs. principal din lista drop-down [colțul din stânga sus].
Faceți click pe PAGINI sub Indexare pentru a vizualiza Page Indexing Report (raportul de indexare a paginilor).

Dacă există pagini neindexate înseamnă că aceste pagini nu se află în indexul Google, prin urmare, nu pot apărea pentru căutările aferente.

Procesul de soluționare a problemelor are doi pași:
- Primul este identificarea erorilor
- Al doilea este înțelegerea erorilor și remedierea acestora
Veți observa că erorile sunt grupate în categorii. Cele mai comune valori sunt:
- Page with redirect
- Alternate page with proper canonical tag
- Not found (404)
- Duplicate without user-selected canonical
- Soft 404
- Excluded by ‘noindex’ tag
- Crawled – currently not indexed
- Discovered – currently not indexed
- Server Error (5xx)
- Unauthorized request (401) Errors
Pentru fiecare categorie de erori, puteți vedea starea de validare, tendința și numărul de pagini afectate.
Pagină cu redirecționare
Atunci când primiți o „eroare de redirecționare”, înseamnă că URL-ul redirecționează către un alt URL și, prin urmare, nu a fost indexat. Acesta este un motiv foarte frecvent pentru care paginile nu sunt indexate și, în majoritatea cazurilor, nu trebuie să faceți nimic în acest sens.
Pentru a obține mai multe detalii pentru o pagină, faceți clic pe un URL și selectați INSPECTEAZĂ URL pentru a ajunge la raportul de INSPECȚIE URL.

Referring page: Aceasta este pagina care face legătura spre o pagină care nu există. Dacă linkul provine de la o pagină pe care o puteți controla este mai bine să schimbați linkul pentru a indica spre pagina redirecționată.
User-declared canonical: URL-ul paginii către care indică pagina redirecționată. Cu alte cuvinte, aceasta este pagina care este indexată de Google.


Dacă nu, atunci ar trebui să investigați mai departe pentru a găsi și a elimina redirecționarea, astfel încât pagina originală să poată fi indexată de Google.
Alternate page with proper canonical tag
Acest mesaj de eroare înseamnă că pagina respectivă nu este indexată de Google, deoarece a găsit o pagină mai bună pentru a o indexa. URL-urile cu parametri sunt de obicei listate aici și, în cele mai multe cazuri, nu este nimic de făcut.
Parcurgeți lista și faceți clic pe butonul Inspect URL pentru a afla mai multe despre o pagină.
Eroare (404) – Page not found
Aceste tipuri de erori sunt ușor de remediat. Înseamnă că o pagină nu a putut fi găsită de robotul Google în momentul indexării.
În cele mai multe cazuri, aceasta poate fi o alarmă falsă. Așadar, primul lucru pe care trebuie să-l faceți este să verificați dacă pagina este o eroare corectă 404- „not found”.
Faceți clic pe o pagină din listă și apoi pe butonul INSPECT URL.
În timp ce așteptați să primiți datele de la Google Index, deschideți o nouă fereastră de browser și navigați către URL.
Dacă pagina este găsită pe site-ul dvs. și doriți să o adăugați la Google Index, atunci:
- Faceți clic pe butonul TEST LIVE URL.
- Faceți clic pe butonul REQUEST INDEXING.
- Întoarceți-vă la raport și faceți clic pe VALIDATE FIX.
Dacă este vorba de o pagină care într-adevăr afișează corect o eroare 404 și nu doriți ca Google să o indexeze, aveți două opțiuni:
În primul rând, lăsați-o așa cum este. Google va elimina treptat pagina din index. Acest lucru este normal și este de așteptat să se întâmple pentru paginile care nu mai sunt valabile sau care au fost șterse dintr-un motiv valid.
În al doilea rând, redirecționați pagina folosind o redirecționare 301 către o pagină conexă de pe site-ul dvs. web.
Duplicate without user-selected canonical
Acest mesaj de eroare înseamnă că Google a ales o altă pagină ca fiind canonică pentru această pagină și, prin urmare, nu va indexa această pagină. Puteți inspecta acest URL pentru a vedea care este URL-ul pe care Google îl consideră canonic pentru această pagină.
Dacă sunteți de părere că Google a ales pagina corectă ca fiind canonică, nu mai trebuie să faceți nimic altceva. Dacă credeți că Google a ales URL-ul greșit ca fiind canonic, puteți specifica în mod explicit URL-ul canonic pentru această pagină (consultați subiectul URL-uri CANONICE) pentru mai multe informații.
Dacă credeți că această pagină nu este un duplicat al canonical-ului ales de Google, trebuie să vă asigurați că conținutul dintre pagini diferă substanțial.
Soft 404
Atunci când primiți o eroare soft 404, înseamnă că pagina nu a fost găsită (pentru că nu există), dar în loc să spună motoarelor de căutare că trebuie ignorată, a generat un cod valid.
Este posibil să aveți pagini pe site-ul dvs. care nu pot fi accesate direct, ci doar după ce un utilizator finalizează o anumită acțiune.
De exemplu, să presupunem că pagina dvs. de plată este afișată utilizatorilor doar DUPĂ ce aceștia au adăugat un articol în coșul de cumpărături.
Dacă pagina este încă listată în sitemap-ul dvs., Google va încerca să o parcurgă, dar nu o va găsi, deoarece niciun articol nu a fost adăugat în coș.
Ce trebuie să faceți cu privirela erorile soft 404?
- Va trebui fie să generați un cod 404 pentru paginile care nu sunt valide
- Să le eliminați din sitemap-ul dvs. astfel încât Google să nu le acceseze
- Să le redirecționați către o pagină validă
- Să nu faceți nimic. Uneori, erorile soft 404 sunt normale și de așteptat.
Excluded by „noindex” tag
Aceasta nu este, de fapt, o eroare. Aceasta înseamnă că o pagină a fost trimisă la index (prin intermediul sitemap-ului dvs.), dar este însoțită de instrucțiunea „noindex”, care solicită motoarelor de căutare să nu o adauge în indexul lor.
Ceea ce ar trebui să faceți este să revizuiți lista paginilor care au eticheta „noindex” și să vă asigurați că nu le doriți în indexul Google.
În cazul în care o pagină a fost etichetată în mod greșit ca fiind „noindex”, eliminați instrucțiunea din header și SOLICITAȚI INDEXAREA.
Crawled – currently not indexed
Pagina a fost parcursă de Google, dar nu a fost indexată. Este posibil sau nu să fie indexată în viitor.
Dacă este o pagină importantă pentru dumneavoastră, asigurați-vă că:
- Are un conținut unic
- Nu are eticheta „noindex”.
- Nu este blocată de robots.txt
Realizați modificările necesare la conținut și retrimiteți-l la Google pentru a fi indexat.
Discovered – currently not indexed
Pagina a fost găsită de Google, dar nu a fost încă accesată. În mod normal, Google dorea să parcurgă URL-ul, dar se aștepta ca acest lucru să supraîncarce site-ul; prin urmare, Google a reprogramat crawl-ul. Acesta este motivul pentru care data ultimei accesări este goală în raport.
Eroare de server (5xx)
Paginile listate aici nu au putut fi accesate de robotul Google, fie pentru că serverul era oprit, fie pentru că nu era disponibil în acel moment.
Urmați acest proces:
Faceți clic pe una dintre paginile afectate și veți obține un meniu cu opțiuni în dreapta.

Analizați detaliile și apoi faceți clic pe TEST LIVE URL.

În cazul în care pagina nu poate fi accesată, trebuie fie să rezolvați problema, fie să o eliminați din sitemap.
Erori Unauthorized request (401) (401)
O pagină este inclusă în sitemap-ul dumneavoastră, dar Google nu o poate accesa deoarece este protejată prin parolă.
Deoarece aceste pagini nu sunt disponibile publicului, trebuie să:
- Le eliminați din sitemap-ul dvs.
- Adăugați o instrucțiune „noindex” în antetul paginii
- Blocați directorul (sau zonele protejate) în fișierul robots.txt.
Concluzie
Nu intrați în panică atunci când vedeți erori în contul Google Search Console. În multe cazuri, erorile sunt valide și sunt de așteptat.
Prioritatea dvs. este să rezolvați orice eroare CRAWLED – CURENTLY NOT INDEXED și NOT FOUND (404), deoarece acestea sunt erorile direct legate de poziționarea dvs.
În cele din urmă, implementarea breadcrumb schema list și existența datelor structurate corecte sunt necesare pentru ca Google și alte motoare de căutare să interpreteze corect implementarea breadcrumb-ului dumneavoastră.