Plik robots.txt - co to jest i do czego służy?

Administratorzy witryn zawsze przy ich funkcjonowaniu spotykają się na serwerze z plikiem o nazwie robots.txt. Czym właściwie jest ten plik tekstowy i do czego służy?

Co to jest plik robots.txt?

Plik robots.txt jest plikiem tekstowym, który służy do instruowania robotów internetowych (znanych również jako roboty indeksujące lub pająki internetowe), jak mają indeksować i przeszukiwać witrynę. Plik robots.txt jest częścią standardu wykluczania robotów i jest plikiem umieszczanym na serwerze WWW w celu poinformowania robotów internetowych, które strony w witrynie nie powinny być indeksowane, czy też śledzone.

Plik robots.txt jest używany do uniemożliwienia robotom internetowym indeksowania stron, które nie są do tego przeznaczone, takich jak strony używane tylko do celów optymalizacji pod kątem wyszukiwarek (SEO) lub strony używane do śledzenia zachowań użytkowników. Podobnie jak chociażby zaplecza administracyjne.

Jak utworzyć plik robots.txt?

Tworzenie pliku robots.txt jest standardową praktyką stosowaną przez właścicieli witryn internetowych.

Istnieją dwa główne powody, dla których warto utworzyć plik robots.txt:

1. Chcesz uniemożliwić wyszukiwarkom indeksowanie pewnych stron w Twojej witrynie. Na przykład, możesz mieć stronę "dziękuję", na którą użytkownicy są przekierowywani po wypełnieniu formularza. Nie ma potrzeby, aby ta strona była indeksowana, więc możesz użyć pliku robots.txt, aby nakazać robotom indeksującym ignorowanie jej.

2. Chcesz się upewnić, że wszystkie ważne strony w Twojej witrynie są indeksowane. Jeśli masz dużą witrynę z tysiącami stron, możliwe, że niektóre z nich nie będą indeksowane. Tworząc plik robots.txt, możesz określić, które strony mają być indeksowane, a które nie.

Tworzenie pliku robots.txt jest prostym procesem. Wystarczy utworzyć plik tekstowy i nazwać go "robots.txt". Następnie należy dodać następujące linie kodu:

User-agent: *
Disallow: /

Pierwsza linia informuje wszystkie wyszukiwarki, że powinny one postępować zgodnie z instrukcjami zawartymi w tym pliku. Druga linia nakazuje im ignorować wszystko, co znajduje się w witrynie.

Jeśli chcesz zezwolić robotom indeksującym na indeksowanie określonych stron, możesz dodać linie wyglądające tak:

Allow: /podstrona1.html
Allow: /podstrona2.html

Wystarczy zastąpić "podstrona1.html" i "podstrona2.html" adresami URL stron, które mają być indeksowane. Oczywiście dzisiejsze standardy pozwalają na tworzenie prostszych adresów (np. bez html), ale na potrzeby tego tekstu pozwoliliśmy sobie lepiej to zobrazować.

Możesz także użyć robots.txt aby określić, które części Twojej witryny mają być indeksowane. Na przykład, jeśli masz bloga z oddzielnym kanałem RSS, możesz chcieć zezwolić robotom indeksującym na indeksowanie kanału RSS, ale nie reszty bloga. Aby to zrobić, należy dodać następujące wiersze do pliku robots.txt:

User-agent: *
Disallow: /blog/
Allow: /blog/rss.xml

Pierwszy wiersz informuje wszystkie wyszukiwarki, że powinny one postępować zgodnie z instrukcjami zawartymi w tym pliku. Drugi wiersz nakazuje im ignorować blog, ale trzeci wiersz pozwala im indeksować kanał RSS.

Za pomocą pliku robots.txt można również określić, jak często witryna ma być przeszukiwana. Na przykład, jeśli często aktualizujesz swoją witrynę, możesz chcieć, aby roboty indeksujące indeksowały ją częściej. Aby to zrobić, należy dodać następujące linie do pliku robots.txt:

User-agent: *
Disallow: /
Crawl-delay: 10

Pierwsza linia mówi wszystkim robotom wyszukiwarek, że powinny postępować zgodnie z instrukcjami zawartymi w tym pliku. Druga linia nakazuje im zignorować wszystko, co znajduje się na stronie. Trzecia linia nakazuje im odczekać 10 sekund przed ponownym indeksowaniem witryny.

Utworzenie pliku robots.txt jest prostym procesem, który może pomóc w kontrolowaniu sposobu indeksowania witryny przez wyszukiwarki. Uniemożliwiając indeksowanie określonych stron, można poprawić optymalizację witryny pod kątem wyszukiwarek. Dzięki określeniu, które strony mają być indeksowane, można mieć pewność, że wszystkie ważne strony witryny zostaną znalezione przez roboty indeksujące.

Przesyłanie pliku robots.txt

Po utworzeniu pliku robots.txt należy przesłać go na serwer. Plik ten należy umieścić w katalogu głównym witryny.

Na przykład, jeśli Twoja witryna to example.com, plik powinien być dostępny pod adresem example.com/robots.txt.

Jeśli nie jesteś pewien, jak przesłać plik na serwer, skontaktuj się z hostingiem, który będzie w stanie Ci pomóc.

Testowanie pliku robots.txt

Po utworzeniu i przesłaniu pliku robots.txt należy go przetestować, aby upewnić się, że działa zgodnie z przeznaczeniem. Google udostępnia do tego celu narzędzie o nazwie Tester robots.txt.

Aby skorzystać z tego narzędzia, należy najpierw dodać adres URL witryny. Następnie należy podać ścieżkę do strony w witrynie, którą chcemy przetestować. Na przykład, jeśli chcesz przetestować plik robots.txt dla witryny example.com, wpisz następujący adres URL:

http://www.example.com/robots.txt

Po wpisaniu adresu URL należy wybrać agenta użytkownika, z którym chcemy przeprowadzić test. Najczęściej wybieranym agentem użytkownika jest Googlebot, ale możesz też wybrać innych agentów użytkownika, jeśli chcesz.

Po wybraniu agenta użytkownika należy kliknąć przycisk "Testuj". Narzędzie pobierze plik robots.txt i powie Ci, czy określona przez Ciebie strona jest dozwolona, czy też nie.

Jeśli chcesz przetestować wiele stron, możesz to zrobić, klikając przycisk "Dodaj". Spowoduje to dodanie kolejnego wiersza do narzędzia, w którym można wprowadzić kolejny adres URL do przetestowania.

Należy pamiętać, że plik robots.txt jest publiczny, więc nie należy w nim umieszczać żadnych poufnych informacji. Pamiętaj też, że boty mogą zignorować plik robots.txt, więc nie jest to rozwiązanie idealne. Jest to jednak dobry sposób na kontrolowanie tego, w jaki sposób Twoja witryna jest indeksowana.