Aby zawartość strony internetowej była widoczna w wynikach wyszukiwania, ta musi być najpierw znaleziona przez Google. Wszystkie witryny, które zna i akceptuje wyszukiwarka, są umieszczone w specjalnym indeksie.
Kiedy roboty Google wchodzą na Twoją stronę, to skanują ją, wykrywają wszystkie korekty oraz nowe podstrony, uaktualniając tym samym swój indeks.
Indeksowanie strony w Google. Jak to działa?
Indeksowanie stron internetowych jest czynnością dodawania adresów URL wszystkich witryn do wyszukiwarki. Proces ten należy do automatycznych mechanizmów, czyli robotów. Od tego, czy dana strona pojawi się w indeksie lub też nie, zależy m.in. od umieszczonego metatagu w kodzie strony:
- index
- noindex
Metatag index to sytuacja, w którym robot Google może znaleźć Twoją stronę, przeczytać kod źródłowy witryny od samego początku do samego końca, a następnie zindeksować witrynę do wyszukiwarki. Jeśli chodzi o ten drugi przypadek, to robot może wejść na stronę i odczytać kod źródłowy, jednak nie ma zezwolenia na wpisanie witryny do indeksu wyszukiwarki, a więc nie będzie można jej znaleźć w wynikach wyszukiwania.
Indeks to cała baza danych wyszukiwarki.
Roboty Google przed indeksowaniem danego adresu zwracają uwagę na szereg czynników, w ramach funkcjonujących algorytmów. Są to m.in.:
- treści,
- frazy kluczowe,
- kod strony,
- elementy title,
- atrybuty alt.
Jak sprawdzić, czy moja strona jest zindeksowana?
Aby sprawdzić, czy Twój adres jest dostępny w wyszukiwarce, oczywiście wystarczy go wpisać w głównym oknie zapytania. Jeżeli natomiast jesteśmy ciekawi tego, czy witryna w całości została zindeksowana - a więc chcemy sprawdzić konkretne adresy URL - wpisujemy następującą komendę, np.:
site:studio113.pl
Jak ułatwić botom Google zadanie indeksowania strony?
Polecamy kilka rozwiązań, które mogą przyspieszyć i pomóc robotom Google przy skanowaniu oraz indeksowaniu naszej strony.
Jednym z nich jest robots.txt - to plik, który - dosadnie mówiąc - komunikuje się z robotami indeksującymi witrynę. Przekazuje im komunikaty oraz komendy, jakie mają zastosować przy swoim działaniu. Dokument ten jest pierwszym, na który trafiają roboty po wejściu na stronę, chcąc ją sprawdzić i zindeksować. Komunikaty w robots.txt mogą wyglądać w następujący sposób:
Sposoby na indeksację strony internetowej
1. Dodanie strony poprzez Google Search Console
Generalnie jest to najszybszy i zarazem najprostszy sposób, aby w ciągu chwili zakomunikować wyszukiwarce, że chcemy naszą stronę zaktualizować, albo zindeksować w wynikach wyszukiwania. Jeżeli mamy nasz adres dołączony do tego narzędzia, należy wybrany adres URL wpisać w odpowiednie pole i nacisnąć poproś o zindeksowanie.
2. Dodanie strony poprzez mapę witryny XML
Kolejną opcją, którą rekomendują roboty Google, są mapy XML. Co do zasady - wszystkie witryny powinny ją posiadać, bowiem mapa strony w formacie XML znacznie ułatwia sprawę indeksacji. Mapa strony XML jest zgrupowaniem wszystkich podstron, w postaci adresów URL i informacji towarzyszących, jakie roboty mogą znaleźć w strukturach naszej witryny. Tam również zostaną zawarte wiadomości odnośnie ewentualnych aktualizacji.
Jeżeli już wygenerujemy odpowiednią mapę strony, kolejnym krokiem jest opublikowanie jej w narzędziu stworzonym przez Google. Mapę należy przesłać za pomocą Google Search Console. Po poprawnym wdrożeniu sitemapy, Google będzie miało możliwość wyświetlania Tobie różnych informacji i statystyk dotyczących Twojej strony, w tym komunikaty o ewentualnych błędach.
3. Indeksacja za pomocą plików PDF
Nieco mniej popularnym, ale nie nieznanym, jest sposób publikowania tekstów oraz obrazów w plikach PDF. Dokumenty te są generalnie traktowane na podobnej zasadzie jak linki. Roboty są w stanie odczytać w nich zawartość i zindeksować PDF w wynikach wyszukiwania. To często ułatwia wielu internautom odnalezienie np. instrukcji obsługi sprzętu.
4. Indeksowanie witryny przy pomocy narzędzi online
To również łatwo dostępna i popularna praktyka administratorów stron. Zarówno darmowe, jak i płatne narzędzia, uruchamiają procedurę tworzenia mapy za pomocą linków zwrotnych. Taki sposób może okazać się przydatny zwłaszcza przy braku dostępu do danej strony. Przekazanie linku z adresem mapy strony pozwala robotom Google swobodnie poruszać się po całej witrynie.
Indeksacja strony w Google i tzw. crawl budget
Crawl budget to maksymalna liczba podstron, jakie mogą przeskanować roboty podczas jednej wizyty na Twojej stronie.
Budżet robotów zależy od wielu czynników, w tym od rozmiaru witryny, jej kondycji, jak też ewentualnych błędów. Roboty na co dzień indeksują i mają do czynienia z miliardami witryn, dlatego każda ma określony limit, wydzielony robotom. W innym przypadku nie byłyby w stanie przerobić aż tylu źródeł.
Na częstotliwość wizyt oraz liczbę skanowanych podstron, składają się również fachowo nazywane zagadnienia:
- Crawl Rate Limit
- Crawl Demand
Crawl Rate Limit jest górną granicą wprowadzoną w funkcjonowaniu botów, aby te nie crawlowały (skanowały) zbyt dużej ilości podstron w tym samym czasie, ponieważ nadmiar może obciążyć samą stronę internetową. Taki współczynnik możemy ustalić ręcznie w Google Search Console, jeżeli obawiamy się wysyłania przez Google zbyt wielu zapytań, oddziałujących na szybkość ładowania witryny.
Crawl Demand to z kolei kwestia typowo techniczna. W przypadku wysokiej wartości domeny, roboty Google będą ją miały na liście swoich priorytetów, aby częściej sprawdzać, czy doszło do kolejnych aktualizacji treści. Ten schemat ma też swoje konkretne działanie, ponieważ roboty niekoniecznie muszą częściej odwiedzać każdy adres URL. Czynnikami decydującymi są popularność konkretnej podstrony i częstotliwość aktualizacji.
Indeksowanie strony w Google - podsumowanie
Jest co najmniej kilka sposobów na indeksację strony internetowej w wynikach wyszukiwania. Wyróżniamy przede wszystkim:
- indeksację przy pomocy platformy Google Search Console,
- tworzenie mapy XML,
- indeksowanie plików PDF,
- skorzystanie z narzędzi online.
Wpływ na indeksowanie witryny ma szereg innych czynników, które współdziałają przy pozycjach w wynikach wyszukiwania. W tej grupie są chociażby:
- crawl budget,
- robots.txt,
- metatagi.