Algoritm PageRank –
Definitie, formula matematica, optimizare 

Definitie PageRank

Page Rank este pe scurt mecanismul prin care Google masoara (sau contorizeaza) importanta paginii. Cand toti ceilalti factori (dintre cei pana acum discutati) au fost luati in considerare, Google foloseste conceptul PageRank pentru a face o ultima ajustare inainte de clasificarea finala. Astfel, site-urile considerate mai importante vor urca in clasamenul de rezultate, in timp ce acelea mai putin importante vor ceda locul celor din prima categorie.

Practic, Google claseaza paginile ca rezultate ale unei cautari, parcurgand urmatorii pasi:

  1. Extrage din baza de date tematica toate paginile corespunzatoare tematicii desemnate de cuvintele cheie folosite de utilizator in interogare (cautare).
  2. Stabileste un clasament provizoriu in acord cu elementele de pagina prezentate in Capitolele 2 si 3.
  3. Estimeaza Popularitatea si Reputatia linkurilor (despre care s-a vorbit pe larg in Capitolul 4).
  4. Ajusteaza rezultatele in acord cu indicativul PageRank.

In realitate procesul este mult mai complex decat pare, dar in mare, acestea sunt etapele esentiale parcurse. Indicativul PageRank este un multiplicator, nu doar o valoare adaugata la alta valoare. Asadar, daca o pagina are valoarea indicativului PageRank = 0, exceptand cazurile speciale, se va clasa inevitabil spre sfarsitul listingului de rezultate (vom conveni sa numim de acum incolo listingul de rezultate: SERPS – Search Engine Results Pages).

Cum este conceput PageRank d.p.d.v. semantic?

Algoritm PageRank - Definitie, formula matematica, optimizare  1Calculul PageRank tine cont de mai multe aspecte. Teoria din documentul Google de care s-a amintit anterior spune ca daca o Pagina A ofera o legatura (link) catre o Pagina B, inseamna ca Pagina A „spune” despre Pagina B ca este o pagina importanta. Acesta este unul dintre aspecte. La evaluarea PageRank pentru Pagina B se va tine cont totodata de importanta Paginii A (PageRank al Paginii A). Daca Pagina A se bucura de linkuri importante (provenind de la site-uri importante – adica avand PageRank mare), atunci automat si linkurile din Pagina A catre alte pagini devin importante. Astfel, Pagina B inclusiv devine importanta.

Cand se va aseza sageata mouselui peste bara Google Toolbar, in dreptul graficului PageRank va aparea instantaneu un cadru continand textual valoarea numerica sintetica a indicativului pentru pagina curenta (pe o scara de la 1 la 10).

Cat de riguros este estimat indicativul PageRank in bara Google?

 Bara GoogleToolbar nu este foarte exacta in priviinta rezultatelor afisate in mod curent ca valoare a indicativului PageRank. Exista o limitare importanta a barei Google Toolbar in ceea ce priveste PageRank-ul: in timp ce in toolbar PageRank se afisaza ca functie liniara, in realitate PageRank se comporta ca o functie logaritmica. Ceea ce inseamna ca o trecere de la valoarea din toolbar 3 la valoarea 4 este mai usor de obtinut sub aspectul numarului de linkuri necesare decat o crestere de la valoare 4 la valoarea 5.

 

 

Daca valoare calculata a PageRank e intre:

 

 

Valoarea din Toolbar este:

0,000000001 si 5 1
6 si 25 2
26 si 125 3
126 si 625 4
626 si 3.125 5
3.126 si 15.625 6
15.626 si 78.125 7
78.126 si 390.625 8
390.626 si 1.953.125 9
1.953.126 si infinit 10

Cat de semnificativ este indicativul PageRank?

Algoritm PageRank - Definitie, formula matematica, optimizare  2 Importanta fiecarui element din algoritmii Google depinde de calitatea informatiei pe care o furnizeaza. Importanta unui anumit element este cunoscuta sub denumirea generica de „greutate”.

Doi factori au contribuit de-a lungul timpului si contribuie si in prezent la evaluarea „greutatii” diverselor elemente de algoritm:

  1. Usurinta cu care proiectantii de pagini web pot manipula elementul respectiv.
  2. Nivelul de relevanta al respectivului element pentru tema generala, subiectul central si calitatea paginii web.

 

Aceste doua lucruri constituie factori individuali de apreciere. Combinarea lor determina „greutatea” unui element (parametru) algoritmic, intr-un cuvant cat de mult putem sa ne incredem in informatia furnizata de acel element cu privire la calitatea paginii analizate, deci cat de mult are voie acest element de algoritm sa influenteze clasamentele SERPs.

Indicativul PageRank este de departe pentru un webmaster, cel mai greu element de manipulat. Pe de alta parte insa, este foarte posibil sa se genereze automat linkuri de la un site catre altul, intr-un mod simplu, prin apelarea la serviciile de acest gen ale unor site-uri specializate, cunoscute in lumea marketingului pe Internet sub denumirea generica de „Link Farms” sau „Ferme de Linkuri”. Google lupta in prezent cu toate mijloacele impotriva acestui tip de abuzuri, astfel incat multe site-uri care au incercat utilizarea acestui mijloc de promovare online au fost blocate de la orice afisare posibila, prin manipularea de catre Google a factorului PageRank.

Totusi, abuzurile in priviinta legaturilor dintre site-uri sunt numeroase si, intr-adevar, pot influenta valoarea acestui indicativ si deci, implicit, clasamentele. Asadar, desi PageRank este un indicativ cu „greutate”, este bine sa nu se supra-aprecieze functionalitatea sau greutatea acestuia. Clasamentul final in Google, este, dupa cum s-a aratat anterior, un mixaj de factori dintre care PageRank este doar unul.

 

Pentru a examina acuratetea indicativului PageRank in ceea ce priveste calitatea paginilor web, vom analiza premisele pe care se constituie PageRank:

  1. Daca o pagina trimite un link catre o alta pagina, este ca si cum aceasta ar da un vot favorabil paginii catre care face trimitere, asadar pagina tinta este considerata o pagina importanta.
  2. Daca mai multe pagini fac trimitere catre o anumita pagina, atunci se considera ca pagina tinta primeste mai multe „voturi de incredere”, deci teoretic importanta ei ar trebui sa fie si mai mare.

Ideea centrala a conceptului este: „Oamenii fac trimitere din site-urile proprii numai catre site-uri (pagini) inrudite din punct de vedere tematic pe care le considera importante pentru ei si, in general, de calitate.” .

Nu ar fi prea greu sa descoperim insa ca aceasta premisa este, nu rareori, gresita. Cateva motive pentru care proiectantii de pagini web nu aleg neaparat sa-si lege paginile de alte pagini importante si de calitate ar fi:

  1. Algoritm PageRank - Definitie, formula matematica, optimizare  3Conceptul de linkuri reciproce: „Tu imi dai un link mie si eu iti dau un link tie.”
  2. Necesitatea plasarii unui anumit link in pagina: „Utilizarea scriptului nostru pe site-ul dvs. este permisa numai cu plasarea unui link din pagina in cauza catre pagina noastra.” sau „Iti vom facilita un bonus la oferta noastra actuala in contul unui link plasat din pagina ta catre pagina noastra.”
  3. Apelarea la programe online de inregistrare si raportare a traficului pentru o anumita pagina, programe care afisaza automat in cadrul contorului plasat in pagina si un link

Analizand in continuare, sesizam urmatorul aspect de actualitate:

Aproape orice webdesigner care poseda un site aflat temporar in pozitii de varf in cadrul clasamentelor unui motor de cautare major, va sesiza ca, fara sa faca absolut nimic, exista o tendinta de inmultire a legaturilor externe catre site-ul propriu, dinspre site-uri despre a caror existenta in unele cazuri nici macar nu are idee. Si acest lucru nu neparat pentru ca site-ul lui este bun, sau mai bine zis „de calitate” (desi majoritatea celor clasate pe primele locuri chiar sunt).

Explicatia rezida de multe ori in alta cauza: presupunand ca majoritatea proiectantilor web care debuteaza cu un site nou pe Internet, doresc sa furnizeze, din spirit de credibilitate, in cadrul unei pagini separate, linkuri catre site-uri consacrate din domenii de interes similare sau inrudite, primul lucru pe care il vor face in acest sens va fi sa genereze cateva cautari in Google dupa domeniile de interes vizate si sa aleaga cateva din site-urile afisate in primele 1-2 pagini de rezultate.

Site-urile web astfel selectionate pentru trimitere de link nu vor fi neaparat dintre cele de cea mai buna calitate (in ideea ca se pot regasi printre aceste rezultate si site-uri care au urmarit doar manipularea clasamentelor in favoarea lor, fara alte obiective calitative imediate), alegerea lor datorandu-se mai degraba usurintei cu care au fost gasite si/sau credibilitatii pe care o inspira proiectantului site-urile listate in primele rezultate ale clasamentului Google.

In conditiile in care o pagina de o calitate indoielnica (din punct de vedere al unui rationament uman) este aleasa in acest mod pentru a fi linkuita, imbunatatirea indicativului PageRank al acesteia ca rezultat direct al linkurilor primite de la site-urile debutante va contribui (aproape inevitabil) la propagarea inadvertentelor de calitate in clasamente.

PageRank-Primele 1000 de rezultate dintr-o cautare cu Google 

Algoritm PageRank - Definitie, formula matematica, optimizare  4Dupa cum am sugerat pana in momentul de fata, numai factorul PageRank nu poate asigura unui site web aparitia in primele rezultate ale unei cautari. Am mentionat anterior ca PageRank este un multiplicator. Asadar, daca scorul pentru toti celilalti factori este 0 dar PageRank este 20.000.000 , in continuare, scorul final va fi 0 (ultimul dintre rezultate).

Daca se va efectua cu Google o cautare dupa o expresie extrem de populara, va aparea pe bara albastra o cifra uriasa de potentiale rezultate gasite, cateodata si cateva zeci de milioane. Oricum , desi nimeni nu a mers vreodata mai departe de cateva sute, daca va avea curiozitatea sa ajunga la prima mie, va constata ca afisarea rezultatelor se opreste la rezultatul cu numarul 1000. Intelegerea acestui fenomen (explicat in cele ce urmeaza) va conduce la intelegerea rationamentului pentru care intotdeauna este necesar ca proiectantul sa se concentreze mai intai asupra factorilor de pagina si asupra strategiei linkurilor text  si doar apoi asupra aspectelor legate de factorul PageRank.

Presupunem ca un utilizator oarecare intreprinde o cautare cu Google care genereaza conform datelor de pe bara albastra 200.000 de rezultate. Daca am calcula fiecarui element de algoritm pentru toate cele 200.000 de pagini, ne putem imagina timpul necesar alocat unei astfel de operatiuni de anvergura. Totusi, cautarea utilizatorului dureaza in jur de 0,34 secunde. In acest moment apare intrebarea „Cum a fost posibil?”.

Rapiditatea cautarii s-a datorat stabilirii in prealabil a unui subset de documente considerate cele mai relevante in raport cu expresia cheie a utilizatorului. Mai exact, motorul de cautare a interogat sectorul tematic corespunzator din baza de date a motorului in functie de 2, maxim 3 factori, selectand in acest mod primele 2000 de rezultate.

Motorul aplica apoi asupra acestor 2000 de rezultate plauzibile toti ceilalti factori si, in cele din urma, le afisaza intr-un clasament final pe primele 1000 dintre ele. Afisarea doar a primelor 1000 se datoreaza degradarii exponentiale dupa prima jumatate a relevantei rezultatelor relativ la subiectul cautarii. Cei 2-3 factori ai cautarii initiale cu siguranta ca nu includ nici pe departe indicativul PageRank ci, elemente de pagina considerate de baza .

 

PageRank – a fi sau a nu fi luat in considerare in munca de optimizare?

Algoritm PageRank - Definitie, formula matematica, optimizare  5Sa presupun ca se efectueaza o interogare (o cautare in Google) in urma careia se genereaza ca rezultat Pagina A, respectiv Pagina B. Scorurile totale obtinute de fiecare din cele doua pagini pentru acea interogare reprezinta totalitatea scorurilor obtinute pentru fiecare factor in parte (inlusiv PageRank) cu privire la fiecare dintre paginile respective. Sa persupunem ca scorul total obtinut de Pagina A pentru interogarea respectiva este 900, respectiv pentru Pagina B 500.

Evident ca Pagina A va fi listata prima. Fara nici o schimbare cu privire la factorul PageRank, dar abordand schimbari majore in sfera celorlalte elemente de optimizare, este posibil ca Pagina B sa-si imbunatateasca scorul final, ajungand la un moment dat sa fie listata inaintea Paginii A. Exista o multime de interogari ca acestea in Google la ora actuala, unde pagini cu PageRank 4 sunt detronate de pagini cu PageRank 1. Lucrul acesta e valabil in special in cazul interogarilor din domenii slab competitive.

Acum sa presupunem ca Pagina A isi imbunatateste scorul total pana la valoarea 1100. De data aceasta, Pagina B nu mai are sanse prea mari sa poata invinge Pagina A fara sa-si imbunatateasca PageRank-ul. Dupa toate aparentele, Pagina B se pare ca trebuie sa-si imbunatateasca si celelalte elemente cheie (de pagina si de linkuri text) pentru a se putea mentine in competitie cu Pagina A.

Exista o observatie importanta care trebuie facuta in acest moment: 

Pentru a putea tine pasul cu concurenta intr-un domeniu competitiv de prezenta online, proiectantul va trebui sa optimizeze la maxim factorii de pagina si de popularitatea+reputatia linkurilor, apoi sa abordeze aspectul ceva mai complicat cu privire la factorul PageRank.

Sa consideram in acest sens strategiile diametral opuse a doi proiectanti de pagini web. Persoana A considera aspectul PageRank ca fiind total lipsit de importanta, in timp ce Persoana B acorda toata atentia indicativului PageRank, fiind complet dezinteresata de elementele de pagina.

 

Persoana A a optimizat pagini web d.p.d.v al aspectelor de pagina ani de zile, asadar este familiarizata cu strategiile de pagina si de linkuri text si poate obtine relativ usor un scor maxim la aceste categorii (non PageRank). Obtinand implicit si cateva linkuri de pe urma unei minimale promotii online si / sau offline (pe care orice site web o initiaza la debut), Persoana A isi vede site-ul propulsat auomat in clasamente (SERPS). Atat timp cat poate fi gasit in SERPS si continutul informational oferit este bun, site-ul Persoanei A tinde sa obtina linkuri din paginile site-urilor inrudite sau complementare, fara macar sa le ceara in mod explicit. Aceste site-uri vor oferi acea „picatura” de PageRank care va ajuta site-ul Persoanei A sa-si consolideze pozitia in clasamente.

 

Persoana B opereaza practic in sens invers fata de Persoana A. Cu totii am vazut in listingurile de rezultate pagini web neavand aproape deloc continut explicit relativ la termenii cautati, ci doar o clasare exceptionala (in cazul numelor de marca, gen portalul Yahoo, acest lucru constituie un fapt firesc si se intampla extrem de des). Persoana B intelege bine mecanismul si importanta factorului PageRank si se concentreaza asupra tuturor aspectelor cu privire la acesta. Trepat, pagina Persoanei B va incepe sa adune „picatura cu picatura” un scor favorabil si in sfera factorilor ce nu privesc PageRank-ul si tot fara sa faca nimic in acest sens. Faptul in sine este posibil o data prin intermediul continutului text al paginilor (atat cat este – mult sau putin), apoi prin colectarea cu ajutorul strategiei PageRank (asupra careia Persoana B isi canlizeaza toate eforturile) de linkuri text care intrunesc conditiile de link text favorabil (respectand conceptele prezentate in Capitolul 4 cu privire la relevanta linkurilor). De data aceasta Persoana B reuseste sa obtina fara fara un efort explicit in acest sens un minim de parametri optimali non PageRank care o vor propulsa treptat in clasamente.

 

Cele doua cazuri prezentate sunt, fara doar si poate, 2 extreme, insa ceea ce trebuie inteles de aici este ca cele doua strategii, luate separat, converg una catre cealalta, tinzand catre acelasi rezultat, evident cu avantaje si dezavantaje:

 

  Avantaje Dezavantaje

Persoana A

 

(care tine cont numai de factorii de pagina)

 

 

 

 

 

Persoana B

 

(care tine cont numai de PR)

  • Intrare rapida in SERPS vizate;

 

  • Linkurile generate implicit reduc mult din volumul de munca.
  • Securitate slaba a strategiilor, codul fiind usor de copiat de catre competitie.

 

  • Reactie lenta si de durata pentru a compensa o eventuala detronare a paginii de catre competitie.

 

  • Pozitie solida. Se pot cu usurinta optimiza elemente de pagina daca se impune un salt rapid in clasamente.

 

  • Probabil ca site-ul va obtine un trafic mare si din alte surse decat motare de cautare (vizitatori provenind, spre exemplu, din numeroasele pagini din care se fac trimiteri).

 

  • Intrare lenta in SERPS (campaniile de colectare a legaturilor pentru un PageRank considerabil sunt lungi si anevoioase).

 

  • Dificultatea de a obtine trafic de calitate (e mai probabila listarea paginii in rezultate generate ca urmare a unor cautari nu tocmai inrudite cu tematica si subiectul central al site-ului).

Este aproape evident ca ambele strategii pot sa functioneze si chiar funtioneaza. Ambele strategii se folosesc in cele din urma (direct sau indirect) atat de factorul PageRank cat si de factorii non PageRank. Deoarece apare evidenta necesitatea unui mixaj, cel mai intelept lucru este ca fiecare proiectant sa se concentreze asupra ambelor categorii de factori, uzand intr-un grad mai mare sau mai mic de unii factori sau de altii, in functie de obiectivele vizate pe termen scurt, mediu si lung.

Segmentele de piata online extrem de competitive

 

Exista domenii de interogari (expresii de cautare) unde competitia este acerba, astfel incat, pentru o afisare in primele 3 pagini de rezultate trebuie intruniti la maxim toti factorii de clasament componenti ai algoritmilor de pozitionare. In astfel de situatii este practic imposibila clasarea in rezultatele de top doar prin intermediul factorului PageRank sau intrunind optim numai factorii non PageRank.

 

Formula matematica a indicativului PageRank

Formula de calcul a indicativului PageRank este in acelai timp simpla (prin acuratetea ei matematica) si totodata complicata (prin recursivitatea aparent infinita pe care o implica).

Notand:

PR(A) = PageRank al paginii A;

D = factor de convergenta, deobicei 0,85 (aceasta valoare fiind aleasa din considerente matematice relative la convergenta catre o limita a formulei);

PR(Ti) = PageRank al unei pagini Ti care pointeaza catre A;

C(Ti) = Numarul de linkuri pornind din pagina Ti catre exterior (incluzand linkul catre pagina A);

Formula matematica ce combina elementele mai sus prezentate pentru a calcula PR(A) este:

PR(A) = (1-d) – d ( PR(T1) / C(T1) + … + PR(Tn) / C(Tn) )

Desi pare simpla la prima vedere, se dovedeste totusi la o examinare mai atenta ca formula genereaza de fapt un lant recursiv de calcule, deoarece trebuie sa cunoastem, pentru a calcula PR(A), valorile PR(Ti), remarcand ca, pentru calculul PR(Ti), printre paginile care pointeaza catre Ti se poate numara chiar Pagina A insasi. Aceste aspecte recursive ne duc cu gandul la o rotire intr-un cerc „vicios” din care nu se va putea iesi niciodata. Si acest lucru datorita numarului impresionant de calcule fara inceput si fara sfarst care aparent trebuie facute pentru a ajunge la o concluzie in privinta valorii PR(A).

Pentru a face lumina in ceea ce priveste laturile „obscure” ale formulei vom recurge la prezentarea matematica a catorva situatii concrete pe marginea carora se poate concluziona extrem de bine asupra unor aspecte fundamentale si relevante privind factorul PageRank.

 

Controlul propriului factor PageRank de catre proiectantul de pagini web

Algoritm PageRank - Definitie, formula matematica, optimizare  6 Sunt trei puncte fundamentale privitoare la PageRank asupra carora orice proiectant de pagini web ar putea si ar trebui sa-si canalizeze eforturile in incercarea de optimizare a acestuia pentru site-ul propriu:

  1. Alegerea cu grija a paginilor externe desemnate pentru a trimite o legatura catre site-ul propriu;
  2. Alegerea atenta a paginilor externe desemnate sa primeasca linkuri din site-ul propriu precum si a paginilor din site-ul propriu din care se vor face trimiterile catre paginile din exterior alese spre a fi „linkuite”.
  3. Structura interna de legaturi (intre paginile propriului site).
  4. Linkuri catre site-ul propriu. 

Cand se cauta linkuri care sa pointeze dinspre alte site-uri catre site-ul propriu din punctul de vedere pur al PageRank-ului, cel mai bun lucru intr-o prima instanta este alegerea acelor pagini care au cel mai mare PageRank, conform indicatiei din Google Toolbar. In continuare insa, ne vom reaminti ca acel cuantum de PageRank pe care o legatura de pe o pagina il ofera altei pagini este cu atat mai mic cu cat exista mai multe legaturi catre alte pagini din pagina care ofera legatura.

De exemplu o legatura de pe o pagina avand PR 4 poate fi mai benefica decat o legatura de pe o pagina avand PageRank 6 dar care trimite in exterior un numar mult mai mare de legaturi decat pagina cu PageRank 4.

Sfat cu utilitate practica imediata: 

Pentru a obtine o crestere maximala a indicativului PageRank raportata la o campanie minimala de „cules de linkuri”, este necesara obtinerea unui loc in directoare consacrate ale web-ului, precum DMOZ sau Yahoo Directory si succesul la scara mica si oarecum medie va fi cat de cat asigurat.

  1. Linkurile dinspre site-ul propriu 

Vom tine cont de realitatea relevata de urmatorul rationament: 

Multe linkuri de pe pagini importante ale site-ului X catre pagini din exteriorul acestuia pot conduce la diminuarea Page-Rank-ului paginilor din site-ul X si a PageRank-ului total al site-ului X datorita faptului ca, avand pe Pagina interna A a site-ului X atat linkuri catre alte pagini interne cat si linkuri catre pagini externe, atunci, cu cat vom adauga noi linkuri externe pe respectiva Pagina A, cu atat C(A) va fi mai mare si deci cuantumul de PageRank adus de A paginilor interne catre care Pagina A pointeaza va fi mai mic.

Evident ca orice proiectant isi doreste sa pastreze cat mai mult PageRank pentru site-ul propriu.

 

Atat in baza constatarii rationamentului de mai sus cat si a considerentului anterior vom enunta urmatoarea regula in baza careia linkurile catre exterior vor produce o pierdere de PageRank minima (insamnand ca vom putea oferi paginilor interne, gratie atat sistemului intern de linkuri cat si apeland la cel extern, cel mai mare PageRank posibil):

Scenariul optim de conectare la pagini din exterior este atunci cand linkurile catre exterior provin de pe o pagina interna care are:

  1. Algoritm PageRank - Definitie, formula matematica, optimizare  7Un PageRank scazut;
  2. Linkuri catre cele mai importante pagini interne; 

Pagina interna care pointeaza catre exterior poate fi, spre exemplu, o pagina de opinii (expuneri, pareri) cu privire la subiectul, oferta sau gradul de interes (vizavi de un domeniu tinta) al paginilor externe vizate.

Se va avea in vedere ca o astfel de pagina de prezentari sa fie legata in primul rand la Paginile importante ale site-ului, in mod special la HomePage (pagina de index). In felul acesta se va reduce in mod semnificativ cuantumul de PageRank pierdut prin legarea la pagini externe, cu atat mai mult cu cat PR-ul acestei pagini de prezentari este, din start, unul scazut.

Se va putea eventual castiga un plus de PR de pe urma linkurilor primite din exterior, eventual ca FeedBack la linkurile trimise. Se va avea grija sa nu se plaseze linkuri din Pagina de expuneri catre pagini neimportante ale site-ului, maximizandu-se astfel cuantumul de PageRank adus celor cateva pagini extrem de importante ale site-ului (cum ar fi in primul rand pagina principala, alias index.html sau HomePage).

 

Alte articole utile: