Wysłany: 22 Listopad 2006, 00:05 Jak działają wyszukiwarki?
Jak działają wyszukiwarki?
Jak działają wyszukiwarki?
Na szczęście dla biznesów, wszystkie liczące się wyszukiwarki działają na tej
samej zasadzie. Dodatkowo większość wykorzystuje zbliżone algorytmy
ustalające pozycje strony www w rankingu wyszukiwania.
Wyszukiwarka składa się z czterech podstawowych elementów:
Pajączka (Spider, Crawler),
Bazy danych,
Indeksu
i Programu Wyszukującego.
Bardzo często Bazę danych i Indeks traktuje się jako jedność i nazywa Indeksem,
co jest jednak sporym uproszczeniem.
Pajączek
Spider czyta zlecone mu strony tak, jak to robi przeglądarka. Czyta kod strony i
go interpretuje. W przeciwieństwie jednak do przeglądarki pajączek
interpretowany kod czyści z niepotrzebnych znaczników HTML i zapamiętuje
tylko interesujący go tekst. Oczywiście tekst ten ma własne znaczniki
informujące w dalszym procesie program wyszukujący, gdzie dany tekst się
znajdywał w kodzie strony, czy był to tytuł, nagłówek H1, zwykły tekst itd.
Pajączek po przeczytaniu strony podąża po linkach do podstron w tej samej
domenie (Deep Crawling) czytając je również. Różne wyszukiwarki mają
zdefiniowaną różną głębokość, na którą zagłębia się pajączek. Zakłada się, że
najważniejsze strony powinny być najdalej 2 kliknięcia od strony głównej.
Po "przerobieniu" danego serwisu pajączek poprzez linki kierujące na zewnątrz
trafia na inne, nieznane mu dotąd strony.
Celem większości wyszukiwarek oprócz prawidłowego dostarczania rankingu jest
objęcie jak największej liczby stron – Google w styczniu 2003 zindeksowała 3 083
324 652 stron. Proces indeksowania Internetu opiera się o 2 założenia:
1. do prawie każdej strony ktoś się kiedyś odwołał i można do niej dojść po
linkach na stronach bazy wyjściowej i stron znalezionych poprzez tą bazę.
Baza wyjściowa to pewna liczba stron www, głównie portali i katalogów,
które administratorzy nowej wyszukiwarki ustalają ręcznie, aby ich pajączek
miał wyjście na możliwie najwięcej serwisów.
2. resztę stron zaproponują właściciele. Zwracam uwagę na słowo
"zaproponują". Zwykle mówi się o "dodawaniu stron do wyszukiwarki". W
rzeczywistości formularze wyszukiwarek PROPONUJĄ pajączkowi, które
strony ma odwiedzić. Ręczne "dodanie" poprzez formularz nie jest więc
równoznaczne ze zindeksowaniem strony przez wyszukiwarkę. Dlatego też
trzeba ponawiać proponowanie do skutku, do pojawienia się naszej strony w
wynikach.
Zebrane informacje przekazywane są do Bazy Danych wyszukiwarki. Pajączki
wracają na zindeksowane strony po pewnym określonym czasie, lub przy
ponownym zaproponowaniu strony do indeksacji. Sprawdza wtedy czy strony się
nie zmieniły i ewentualnie pobiera nowe dane.
Baza Danych i Indeks
Baza Danych jest indeksowana (najprawdopodobniej po dodaniu nowego wpisu).
Tworzy się Indeks. To czy strona pojawi się przy wyszukiwaniu zależy od tego,
czy jej została uwzględniona w Indeksie, a nie w Bazie Danych... chociaż
zazwyczaj jest to równoważne. Indeks to spis wszystkich unikalnych słów wraz z
odnośnikami do miejsc występowania ich w bazie danych. Indeks wyszukiwarki
można porównać do indeksu, który można znaleźć w książkach – idea jest taka
sama.
Program Wyszukujący
Gdy użytkownik wpisze jakieś hasło w formularzu wyszukiwarki, Program
Wyszukujący przeszukuje Indeks w poszukiwaniu tego słowa. Jeśli słowo zostanie
znalezione, Program Wyszukujący czyta wszystkie strony z Bazy Danych
oznaczone w indeksie jako zawierające dane zapytanie. Następnie posługując się
swoimi algorytmami ocenia wartości każdej strony. Za ocenę stron mogą
odpowiadać algorytmy w samym Programie Wyszukującym, dodatkowy program
(np. PageRank w Google) i np. fakt pojawienia się strony w katalogu. Na
podstawie ocen jest tworzony ranking.
PageRank to specjalny program, który ocenia wartość strony na
podstawie liczby stron, które zawierają link do danej strony. Wbrew
oficjalnemu opisowi program ten nie jest demokratyczny.
W bazie danych znajduje się pełny, zapamiętany tekst. Wyszukiwarki jednak
generalnie stosują tzw. Stop Words. Są to słowa bez konkretnego znaczenia, jak
spójniki czy rodzajniki, których nie uwzględnia się w wyszukiwaniu.
Jeśli zadamy wyszukiwarce Google pytanie: the president
To Program Wyszukujący przeszuka indeks tylko według słowa "president", "the"
zostanie pominięte dla szybszego rezultatu. Jednakże w opisach stron "the"
będzie się znajdowało.
®GoogleBoy
Kraj:
Pomógł: 2 raz
Wiek: 27
Dołączył: 21 Lut 2006
Posty: Tajne
Skąd: USA
Nr Użytkownika: 1