Motoare de cautare

ce sunt motoarele de cautare?

motoare de cautareMotoarele de căutare indexează miliardele de pagini web. În momentul în care cauti un cuvant sau o fraza, motorul de căutare scanează întreaga bază de date unde sunt listate paginile indexate în prealabil, şi “trimite” ca rezultat o lista cu paginile considerate cele mai relevante cautarii respective. Numărul de pagini rezultate şi relevanţa acestora depind numai de posibilităţile motorului de căutare folosit.

istoric

Motoarele de căutare au aparut undeva prin 1990 cand Alan Emtage, un student la universitatea McGill din Montreal, a creat o unealta de căutare numita “Archie“. Scopul era de a căuta prin informaţiile de pe serverele FTP . În timp ce fişierele de pe aceste servere erau disponibile oricui, nu te puteai folosi de ele decat dacă stiai adresa exacta a serverului şi denumirea exacta a fişierului respectiv. Archie cauta aceste baze de date şi aduna listele cu fişiere pentru fiecare server în parte. Facand asta, folosea ceea ce se numea potrivire de expresie care folosea caractere şi bucati de fraze pentru a aduce utilizatorii la adresa serverului pe care era fişierul gazduit.

Archie poate parea acum o metoda antică de căutare în baza de date, dar crearea sa a dus la un start frenetic în cursa motorului de căutare perfect. Cum publicul a devenit din ce în ce mai constient de noul World Wide Web, nevoia pentru o unealtă de căutare web a devenit imediat vizibila. A fost introdus conceptul de spidering prin care roboti software au inceput să indexeze web-ul urmarind link-urile de la un site la altul, salvand tot textul din fiecare website într-o baza de date pentru cautari.

Elementele unui motor de căutare

Orice motor de cautare are trei elemente majore :

1.- Primul este robotul, care mai este numit păianjen sau vierme (robot, spider sau crawler, in limba engleza). Robotul este un program care vizitează paginile web, le citeşte şi apoi urmăreşte legăturile către alte pagini.
Dar multe dintre paginile vizitate işi pot modifica dupa un anumit timp conţinutul, se pot adăuga noi legaturi, iar unele pagini pot dispărea definitiv. De aceea, roboţii se intorc dupa un anumit interval de timp, de obicei o lună sau două luni, şi vizitează din nou situl căutand eventualele schimbări care au fost făcute.
Aceste programe au o capacitate extraordinară de a citi şi de a prelucra date.

2.- Tot ceea ce găseşte robotul (cuvinte cheie, porţiuni de text din paginile vizitate, etc.) sunt trecute în al doilea element al motorului de căutare, numit index sau catalog.
Acesta este o bază de date imensă in care se află informaţii despre fiecare pagină web găsită de robot. Respectiva pagină apare in catalog ca o noua înregistrare, care va conţine titlul şi adresa paginii respective, cuvintele cheie folosite, legăturile către alte pagini, precum şi portiuni din text, care insa pot fi diferite de la un motor de cautare la altul.
Dacă robotul găseşte schimbări într-o pagina web, atunci indexul va fi actualizat cu noile informatii. Uneori, poate trece mai mult timp pana cand paginile noi sau modificate gasite de robot la o noua cautare vor fi adaugate la index. Deci, este foarte posibil ca o pagina web sa poata  fi vizitata de robot, dar ea sa nu fie incă “indexată”. În acest caz, pagina nu este disponibilă la o eventuala cautare.

3.- Al treilea element este softul de căutare, un program care permite căutarea printre miliardele de pagini inregistrate in index precum si afisarea rezultatului sub forma unei liste de legături, în ordinea pe care el o consideră cea mai relevantă.

Intr-o societate informaţională ideală ar trebui ca motoarele de cautare să descopere, să evalueze şi să indexeze, în timp real, fiecare sit nou aparut. După aceea, ar trebui ca surferii care caută o anumită informaţie, pe baza unei interogări, să primească o listă cu legăturile cele mai relevante şi interesante.

In realitate, odată cu creşterea exponenţială a numărului de situri web, piaţa a devenit din ce în ce mai competitivă şi practic este imposibil să fie indexat automat fiecare sit nou apărut.