Wyszukiwarka Google

Udostępnianie stron robotom – robots.txt oraz meta tag

Publikując witrynę w Sieci domyślnie udostępniamy wszystkie jej podstrony robotom. Aby to zmienić, należy posłużyć się plikiem robots.txt lub odpowiednim meta tagiem.

Przed pobraniem strony witryny robot sprawdza, czy w głównym katalogu domeny witrynie znajduje się plik robots.txt i jeżeli go nie ma sprawa jest jasna – stawiamy stronę „do dyspozycji pająków” (umieszczenie pliku w podrzędnym katalogu sprawi, że nie zostanie od odczytany).

Pełna indeksacja nastąpi też w dwóch innych sytuacjach: gdy plik istnieje, ale jest pusty lub zawiera następujące linie

User-Agent: *
Disallow:

Pierwsza linijka oznacza, że reguła odnosi się do wszystkich robotów (symbol „gwiazdki”).

Jeżeli chcemy zablokować stronę przed wybranym robotem, np. przez Google, wówczas należy użyć następującej składni:

User-agent: Googlebot 

Disallow: /

Jeżeli chcemy zablokować stronę innym robotom, należy sprawdzić, jak nazywa się robot odpowiedzialny za indeksowanie stron w danej przeglądarce i wpisać jego nazwę w miejsce w/w Goglebot’a.

Drugi wiersz standardowego wpisu (Disallow…) określa nam jaką część serwisu chcemy zablokować. Można określić konkretny adres URL lub katalog. Wpis musi się zaczynać od ukośnika (/):

  • Aby zablokować całą witrynę, należy użyć ukośnika.
    Disallow: /
  • Aby zablokować katalog i całą jego zawartość, po nazwie katalogu należy wpisać ukośnik.
    Disallow: /katalog/
  • Aby zablokować stronę, należy wpisać jej nazwę.
    Disallow: /plik.html

Jak utworzyć plik robots.txt

Sprawa jest bardzo prosta – tworzymy pusty plik tekstowy, wpisujemy w nim odpowiednie formuły i zapisujemy go w kodowaniu ASCII.

Zamiast pliku robots.txt możemy użyć też odpowiedniego meta tagu. Jest to niewątpliwie gorsza metoda, ponieważ musimy przy zmianach edytować każdą stronę, a nie plik. Skłąd tagu jest następujący:

   <meta name="robots" content="index,follow">
   <meta name="robots" content="noindex,follow">
   <meta name="robots" content="index,nofollow">
   <meta name="robots" content="noindex,nofollow">

W pierwszym przykładzie, robot ma zaindeksować stronę oraz odwiedzić wszystkie linki (follow). W drugim ma odwiedzać linki, ale nie indeksować strony. W trzecim ma zaindeksować stronę, ale nie iść w głąb serwisu po linkach. I w czwartym – nie ma ani indeksować strony, ani odwiedzać linków, jakie się na niej znajdują.

Warto wiedzieć:

– jeżeli nie mamy potrzeby blokowanie jakiejś części naszego serwisu, możemy nie tworzyć pliku robots.txt ze standardowym ustawieniem umożliwiającym pełną indeksację serwisu. Google domyślnie przyjmuje, że zgadzamy się na to. Podobnie jest w przypadku meta tagu: standardowo jest zbędny.

– gdy mamy w pliku robots.txt ustawione „noindex, nofollow”, zaś jednocześnie na stronie znajduje się meta tag „index, follow”, wówczas nadrzędna jest zawartość pliku i wpisy w meta tagu nie mają już znaczenia

– blokując stronę przed robotem „Goglebot” tak naprawdę blokujemy ją przed wszystkimi robotami firmy Google, których nazwa zaczyna się do Goglebot.

  • Googlebot: przemierza strony uwzględniane w indeksie witryn internetowych oraz Google News
  • Googlebot-Mobile: odpowiada za indeksację stron stworzonych pod telefony komórkowe
  • Googlebot-Image: bada strony, które są później uwzględniane w indeksie grafiki
  • Mediapartners-Google: odpowiedzialny za ustalania treści reklamy AdSense. Ważne: sprawdza tylko te witryny, w których wyświetlane są reklamy AdSense.
  • Adsbot-Google: używany jest do oceny jakości strony docelowej AdWords.
GD Star Rating
loading...
Udostępnianie stron robotom - robots.txt oraz meta tag, Udostępnianie stron robotom - robots.txt oraz meta tag, 9.0 out of 10 based on 1 rating Udostępnianie stron robotom - robots.txt oraz meta tag

Zobacz inne wpisy z tej kategorii

napisał/a 1334 artykułów na rzecz Bloga SEO

Optymalizacja i pozycjonowanie stron i sklepów internetowych w Google to moja pasja.

Od 2008 roku jako Top Contributor pomagam webmasterom rozwiązywać problemy z widocznością ich stron w Google na Forum Pomocy Google dla Webmasterów, na którym jestem najdłuższym stażem TC w Polsce.

W 2010 roku roku założyłem pierwszego w Polsce bloga SEO skierowanego nie do branży SEO, ale stricte do właścicieli stron, na którym przystępnym językiem przybliżam Wskazówki Google dla Webmasterów, opisuję i komentuję zmiany, jakie zachodzą w algorytmie Google. Publikując wskazówki odnośnie tego, jak rozwijać strony, aby rankowały wysoko w Google, pomagam im zwiększać ruch na stronach z naturalnych wyników wyszukiwania.

SEO to także moje życie zawodowe – firma SEOProfi, której jestem właścicielem, świadczy usługi na rynku polsko, anglo- i niemieckojęzycznym.

Opinie i Komentarze

Colin 11 lipca 2010, 22:41

Dodam jeszcze, że nowy bot AdWords nie używa już robots.txt, wchodzi także na strony gdzie robots.txt blokowałby Adsbot-Google.
Jest to zresztą logiczne, bo trudno nazwać robotem automat pobierający stronę o adresie podanym przez użytkownika i niepodążający za linkami.

Skomentuj

Twój adres e-mail nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *