Cum funcționează motoarele de căutare: Crawling, indexare și clasificare

Motoarele de căutare funcționează prin parcurgerea a sute de miliarde de pagini cu ajutorul propriilor crawlere web. Aceste crawlere web sunt denumite în mod obișnuit roboți sau păianjeni ai motoarelor de căutare.

Cum funcționează motoarele de căutare

În acest articol veți afla cum funcționează motoarele de căutare. Cunoașterea modului în care funcționează căutarea vă va ajuta să vă faceți o idee mai bună despre ceea ce dorim să realizăm în materie de optimizare SEO.

V-ați întrebat vreodată de câte ori pe zi folosiți Google sau orice alt motor de căutare pentru a căuta ceva pe internet?

De 5 ori, de 10 ori sau chiar de mai multe ori? Știați că numai Google gestionează peste 2 trilioane de căutări pe an? Adică de 250 de ori mai mult decât populația întregului glob.

Cifrele sunt uriașe. Motoarele de căutare au devenit parte din viața noastră de zi cu zi. Le folosim ca instrument de învățare, de cumpărături, pentru distracție și timp liber, dar și pentru afaceri.

Nu este o exagerare să spunem că am ajuns într-un punct în care depindem de motoarele de căutare pentru aproape orice lucru pe care îl facem.

Iar motivul pentru care se întâmplă acest lucru este foarte simplu. Știm că motoarele de căutare și, în special, Google au răspunsuri la toate întrebările și interogările noastre.

Ce se întâmplă însă atunci când tastați o întrebare și faceți click pe căutare? Cum funcționează la nivel intern motoarele de căutare și cum decid ce să afișeze în rezultatele căutării și în ce ordine?

Cum funcționează motoarele de căutare

Motoarele de căutare sunt programe informatice complexe.
Înainte de a vă permite să introduceți o interogare și să căutați pe internet, acestea trebuie să facă o mulțime de pregătiri pentru ca, atunci când dați click pe „Căutare”, să vă fie prezentat un set de rezultate precise și de calitate care să răspundă la întrebarea sau interogarea dumneavoastră.

Ce include ” activitatea de pregătire”? Trei etape principale. Prima etapă este procesul de descoperire a informațiilor, a doua etapă este organizarea informațiilor, iar a treia etapă este ierarhizarea.

Acest lucru este cunoscut în general în lumea internetului sub numele de Crawling, Indexare și Clasament.

cum funcționează motoarele de căutare, crawling și indexare=Cum funcționează motoarele de căutare (prezentare generală)

Pasul 1: Crawling

Motoarele de căutare au un număr de programe numite „crawlere web” (de aici și cuvântul „Crawling”), care sunt responsabile pentru găsirea informațiilor disponibile în mod public pe internet.

Pentru a simplifica un proces complicat, este suficient să știți că sarcina acestor programe de crawl (cunoscute și sub numele de search engine spider), este de a scana Internetul și de a găsi serverele (cunoscute și sub numele de webservere) care găzduiesc site-uri web.

Ele creează o listă cu toate serverele web pe care trebuie să le parcurgă, numărul de site-uri web găzduite de fiecare server și apoi încep să lucreze.

Vizitează fiecare site web și, folosind diferite tehnici, încearcă să afle câte pagini au, indiferent dacă este vorba de conținut text, imagini, videoclipuri sau orice alt format (CSS, HTML, javascript etc.).

Atunci când vizitează un site web, pe lângă faptul că iau notă de numărul de pagini, urmăresc și eventualele linkuri (fie că acestea indică pagini din cadrul site-ului, fie că fac trimitere la site-uri externe) și, astfel, descoperă din ce în ce mai multe pagini.

Fac acest lucru în mod continuu și urmăresc, de asemenea, modificările aduse unui site web, astfel încât să știe când sunt adăugate sau șterse pagini noi, când sunt actualizate linkurile etc.

Dacă țineți cont de faptul că în prezent există peste 130 de trilioane de pagini individuale pe internet și că, în medie, sunt publicate zilnic mii de pagini noi, vă puteți imagina că este vorba de foarte multă muncă.

De ce este important procesul de crawling?

Prima dumneavoastră preocupare atunci când vă optimizați site-ul web pentru motoarele de căutare este să vă asigurați că acestea îl pot accesa corect, altfel, dacă acestea nu vă pot „citi” site-ul web, nu ar trebui să vă așteptați la prea multe în ceea ce privește poziționarea sau traficul din motoarele de căutare.

Așa cum am explicat mai sus, crawlerele au mult de lucru și ar trebui să încercați să le ușurați munca.

Există o serie de lucruri pe care trebuie să le faceți pentru a vă asigura că crawlerele pot descoperi și accesa site-ul dvs. în cel mai rapid mod posibil și fără probleme.

Pasul 2: Indexarea

Doar crawling-ul nu este suficient pentru a construi un motor de căutare.
Informațiile identificate de către crawlere trebuie organizate, sortate și stocate pentru a putea fi procesate de algoritmii motorului de căutare înainte de a fi puse la dispoziția utilizatorului final.

Acest proces se numește indexare.

Motoarele de căutare nu stochează toate informațiile găsite pe o pagină în indexul lor, dar păstrează lucruri precum: data la care a fost creată/actualizată, titlul și descrierea paginii, tipul de conținut, cuvintele cheie asociate, linkurile de intrare și de ieșire și o mulțime de alți parametri de care au nevoie algoritmii lor.

Lui Google îi place să descrie indexul său ca fiind coperta finală a unei cărți (o carte foarte mare).

De ce ne pasă de procesul de indexare?

Este foarte simplu, dacă site-ul dvs. nu se află în indexul Google, acesta nu va apărea la nicio căutare.

Acest lucru implică, de asemenea, că, cu cât aveți mai multe pagini în indexul motorului de căutare, cu atât cresc șansele de a apărea în rezultatele căutării atunci când cineva tastează o interogare.

Observați că am menționat sintagma „a apărea în rezultatele căutării”, ceea ce înseamnă în orice poziție și nu neapărat pe primele poziții sau pagini.

Pentru a apărea în primele 5 poziții din SERP (paginile de rezultate ale motoarelor de căutare), trebuie să vă optimizați site-ul web pentru motoarele de căutare folosind un proces numit Search Engine Optimization, sau SEO pe scurt.

Pasul 3: Poziționarea

Al treilea și ultimul pas al procesului este ca motoarele de căutare să decidă ce pagini să afișeze în SERP și în ce ordine atunci când cineva tastează o interogare.
Acest lucru se realizează prin utilizarea algoritmilor de clasament ai motoarelor de căutare.

În termeni simpli, aceștia sunt bucăți de software care au o serie de reguli ce analizează ceea ce caută utilizatorul și ce informații să furnizeze.

Aceste reguli și decizii se bazează pe informațiile disponibile în indexul lor.

Cum funcționează algoritmii motoarelor de căutare?

De-a lungul anilor, algoritmii de ranking ai motoarelor de căutare au evoluat și au devenit foarte complecși.

La început (gândiți-vă la 2001) era la fel de simplu precum potrivirea interogării utilizatorului cu titlul paginii, dar acest lucru nu mai este valabil.

Algoritmul de ranking al Google ia în considerare mai mult de 255 de criterii înainte de a lua o decizie și nimeni nu știe cu siguranță care sunt aceste criterii.

Iar acest lucru îi include și pe Larry Page și Sergey Brin (fondatorii Google), care au creat algoritmul original.

Lucrurile s-au schimbat mult, iar acum învățarea automată și programele de calculator sunt responsabile de luarea deciziilor pe baza unui număr de parametri care se află în afara limitelor conținutului găsit pe o pagină web.

Pentru a fi mai ușor de înțeles, iată un proces simplificat al modului în care funcționează factorii de clasificare în motoarele de căutare:

Analizează interogarea utilizatorului

Primul pas este ca motoarele de căutare să înțeleagă ce fel de informații caută utilizatorul.

Pentru a face acest lucru, acestea analizează interogarea utilizatorului (termenii de căutare), împărțind-o într-un număr de cuvinte cheie semnificative.

Un cuvânt cheie este un cuvânt care are un înțeles și un scop specific.

De exemplu, atunci când tastați „Cum se prepară o prăjitură cu ciocolată”, motoarele de căutare știu, din cuvintele „cum se prepară”, că sunteți în căutarea unor instrucțiuni despre cum se prepară o prăjitură cu ciocolată și, prin urmare, rezultatele returnate vor conține site-uri cu rețete.

Dacă căutați ” Cumpără X recondiționat ….”, motoarele de căutare știu din cuvintele „cumpără” și „recondiționat” că doriți să cumpărați ceva, iar rezultatele returnate vor include site-uri de comerț electronic și magazine online.

Învățarea automatizată a ajutat la asocierea cuvintelor cheie înrudite. De exemplu, motoarele de căutare știu că sensul interogării „cum să schimbi un bec” este același cu cel al interogării „cum să înlocuiești un bec”.

Exemplu de analizator de interogări GoogleExemplu de analizator de interogări Google

Motoarele de căutare sunt, de asemenea, suficient de inteligente pentru a interpreta greșelile de ortografie, pentru a înțelege pluralul și, în general, pentru a extrage semnificația unei interogări din limbajul natural (fie scris, fie verbal în cazul căutării vocale).

Găsirea paginilor relevante

Al doilea pas constă în a se uita în indexul lor și a decide care pagini pot oferi cel mai bun răspuns pentru o anumită interogare.

Aceasta este o etapă foarte importantă în întregul proces, atât pentru motoarele de căutare, cât și pentru proprietarii de site-uri web.

Motoarele de căutare trebuie să ofere cele mai bune rezultate posibile în cel mai rapid mod posibil, astfel încât să își mulțumească utilizatorii, iar proprietarii de site-uri web doresc ca site-urile lor să fie preluate pentru a obține trafic și vizite.

Aceasta este, de asemenea, etapa în care tehnicile SEO bune pot influența decizia luată de algoritmi.

Pentru a vă face o idee despre cum funcționează corelarea, iată care sunt cei mai importanți factori:

  • Relevanța titlului și a conținutului – cât de relevante sunt titlul și conținutul paginii pentru interogarea utilizatorului?
  • Tipul de conținut – dacă utilizatorul solicită imagini, rezultatele returnate vor conține imagini și nu text.
  • Calitatea conținutului – conținutul trebuie să fie complet, util și informativ, imparțial și să acopere fiecare aspect al unei povești.
  • Calitatea site-ului web – calitatea generală a unui site web contează. Google nu va afișa paginile de pe site-urile care nu îndeplinesc standardele sale de calitate.
  • Data publicării – În cazul interogărilor legate de știri, Google dorește să afișeze cele mai recente rezultate, astfel încât data publicării este, de asemenea, luată în considerare.
  • Popularitatea unei pagini – Acest lucru nu are de-a face cu cât de mult trafic are un site web, ci cu modul în care alte site-uri web percep pagina respectivă. O pagină care are o mulțime de referințe (backlink-uri), de la alte site-uri web, este considerată mai populară decât alte pagini fără link-uri și astfel are mai multe șanse de a fi preluată de algoritmi. Acest proces este cunoscut și sub numele de Off-Page SEO.
  • Limba paginii – Utilizatorilor li se afișează paginile în limba lor și nu este întotdeauna vorba de limba română.
  • Viteza paginii web – Site-urile care se încarcă rapid (gândiți-vă la 2-3 secunde) au un mic avantaj în comparație cu site-urile care se încarcă greu.
  • Tipul de dispozitiv – Utilizatorilor care caută pe mobil li se afișează pagini mobile-friendly.
  • Locație – Utilizatorilor care caută rezultate în zona lor, de exemplu, „restaurante mexicane în Cluj” li se vor afișa rezultate legate de locația lor.

Acesta este doar vârful icebergului. După cum am menționat anterior, Google folosește mai mult de 255 de factori în algoritmii săi pentru a se asigura că utilizatorii sunt mulțumiți de rezultatele pe care le primesc.

De ce ne pasă de modul în care funcționează algoritmii de clasificare a motoarelor de căutare?

Pentru a obține trafic de la motoarele de căutare, site-ul dvs. trebuie să apară în primele poziții de pe prima pagină de rezultate.

Este dovedit statistic faptul că majoritatea utilizatorilor dau click pe unul dintre primele 5 rezultate (atât pe desktop, cât și pe mobil).

Afișarea pe a doua sau a treia pagină de rezultate nu vă va aduce niciun fel de trafic.

Câteva resurse suplimentare

Google Search CentralHow Google Search Works
AhrefsHow Google Search Works

Concluzie

Unul dintre obiectivele optimizării pentru motoarele de căutare este de a oferi Google semnalele corecte, astfel încât, în timpul procesului de ranking, algoritmul de căutare să „preia” site-ul dvs. și să îl afișeze în fruntea rezultatelor de căutare.

Ordinea rezultatelor căutării este decisă de algoritmul de clasificare după ce ia în considerare o serie de factori cunoscuți și necunoscuți.

În cele din urmă, implementarea breadcrumb schema list și existența datelor structurate corecte sunt necesare pentru ca Google și alte motoare de căutare să interpreteze corect implementarea breadcrumb-ului dumneavoastră.