Wyszukiwarka Google

Co lubi a czego nie lubi Googlebot – warto wiedzieć

Googlebot to „bardzo ważna persona”. Od niej zależy, czy strona zostanie zaindeksowana. Niekiedy pozornie błahostka sprawia, że się na nas, a właściwie naszą stronę, może „obrazić”. Jak np. w sytuacji, gdy robots.txt zwraca kod błędu 500 – w takiej sytuacji możemy zapomnieć w przypadku nowej strony o tym, że pojawi się w indeksie – zaś przy starej powinniśmy oczekiwać jej wyindeksowania – o czym pisałem nie tak dawno.

Bardzo ciekawy artykuł można przeczytać na blogu dyrektora marketingu Majestic SEO.  Zawiera on przydatne informacje na temat zachowania Googlebota, przybliżone od praktycznej strony przez Pierr’a Far’a.

Zaczynamy!

Google sets a conservative crawl rate per server. So too many domains or URLs will reduce crawl rate per URL

Zbyt duża ilość domen na serwerze sprawia, że … robot rzadziej odwiedza naszą stronę. Jeżeli mamy hosting typu share, na którym są setki domen, nie zdziwmy się, jak nasze treści długo się indeksują.

Ktoś to zauważył, robiąc testy na indkesowanie dla strony np. na swoim dedyku i hostingu wirtualnym?

If a CMS has huge duplication, Google then knows, and this is how it notifies you of duplicates on WMT. Google then picks URLS in a chosen order

Warto zadbać o to, aby nasz CMS nie tworzył zduplikowanych adresów url. Inaczej nie dość, że „zostanie to wychwycone”, to jeszcze to Googlebot uzna, co powinno znaleźć się w indeksie, a nie my.

Google checks Robots.txt about once per day. Not every visit.

Robots.txt jest sprawdzany tylko jeden raz dziennie. O tym warto pamiętać. Zmiana w pliku  nie oznacza, że już za kolejnym wejściem Googlebot będzie nas „słuchać” i zaindeksuje nowe treści na stronie.

If server spikes with 500 errors, Googlebot backs off

To chyba jasne – błąd serwera 500 często jest odpowiedzialny za wyindeksowywanie stron. Dlatego tak bardzo należy dbać o to, aby nasz provider świadczył usługi na odpowiednim poziomie. :)

If 503 error on robots.txt they stop crawling.

To też nie wymaga komentarza.

firewalls etc can block the bot

Z tym się do tej pory nie spotkałem. Należy jednak o tym pamiętać – jeżeli taki stan rzeczy utrzyma się przez długi czas, to robot uzna, że strona nie działa

This can – after a few days – create a state in Google, that says the site is dead.

OK, idziemy dalej.

That was good to see that other crawlers face this issue. Because ISPs need to protect their bandwidth, the fact that you want Google to visit you site does not necessarily mean it will be so. Firewalls at the ISP may block bots even before they see your home page. They may (more likely) start throttling bits. So if your pages are taking a long time to get indexed, this may be a factor.

Kolejna ciekawostka – mali ISP mogą blokować Gooblebota, aby zaoszczędzić na transferze…. Kolejny powód, dla którego nalezy z uwaga wybierać providera.

Strong recommendation – set up email notifications in Web Master Tool.

Mało osób korzysta z tej funkcji, przyznam – w końcu nie zaglądamy do Narzędzi codziennie… A tak, dzięki emailowi, będziemy od razu wiedział, że coś jest nie tak…  sprawdziłem na swoim koncie, czy mam to włączone, nie byłem pewien – ale już kiedyś ustawiłem sobie powiadomienia :)

Soft error pages create an issue and so Google tries hard to detect those.

Jeżeli strona błędu zwraca, zamiast 404, kod 200, to Googlebot stara się usilnie sprawdzić, „o co chodzi”. I takie strony są niepotrzebnie odwiedzane. W praktyce doprowadza to do sytuacji, że robot przemierza nie to, co powinien – i zamiast indeksowac nowe treść usilnie próbuje uporać się ze stroną zachowującą się jak powyżej.

W bardzo obrazowy sposób pokazano, dlaczego zaindeksowanie nowej treści musi potrwać?

Do some simple maths. 1 URL/second is 8400 per day. Google is unlikely to hit your site continually for 24 hours, so large amounts of new content can take time to crawl.

Pierre podał także wskazówkę, co należy zrobić, jeżeli zobaczymy złe sitelinki – w takiej sytuacji warto sprawdzić kanonizację strony, z pewnością coś jest tam nie tak, jak być powinno…

Nie do końca zrozumiałem w podanym wpisie jednej kwestii – jak przycisk Google +1 może nadpisać zawartość robots.txt. Ktoś może się do tego odnieść w komentarzu? :)

GD Star Rating
loading...
Co lubi a czego nie lubi Googlebot - warto wiedzieć, Co lubi a czego nie lubi Googlebot - warto wiedzieć, 3.5 out of 10 based on 2 ratings Co lubi a czego nie lubi Googlebot - warto wiedzieć

Zobacz inne wpisy z tej kategorii

napisał/a 1334 artykułów na rzecz Bloga SEO

Optymalizacja i pozycjonowanie stron i sklepów internetowych w Google to moja pasja.

Od 2008 roku jako Top Contributor pomagam webmasterom rozwiązywać problemy z widocznością ich stron w Google na Forum Pomocy Google dla Webmasterów, na którym jestem najdłuższym stażem TC w Polsce.

W 2010 roku roku założyłem pierwszego w Polsce bloga SEO skierowanego nie do branży SEO, ale stricte do właścicieli stron, na którym przystępnym językiem przybliżam Wskazówki Google dla Webmasterów, opisuję i komentuję zmiany, jakie zachodzą w algorytmie Google. Publikując wskazówki odnośnie tego, jak rozwijać strony, aby rankowały wysoko w Google, pomagam im zwiększać ruch na stronach z naturalnych wyników wyszukiwania.

SEO to także moje życie zawodowe – firma SEOProfi, której jestem właścicielem, świadczy usługi na rynku polsko, anglo- i niemieckojęzycznym.

Opinie i Komentarze

Colin 5 marca 2012, 17:55

jak przycisk Google +1 może nadpisać zawartość robots.txt

Googlebot zawsze pobiera strony zawierające przycisk +1, niezależnie od tego czy robots.txt mu pozwala.

Seo-Profi 5 marca 2012, 20:15

Dzięki Colin!

bceuropa 5 marca 2012, 21:10

Colin, czyli dobrze rozumiem, że jeżeli mamy 2 aliasy tego samego adresu, powiedzmy domena.pl/adres1 i domena.pl/katalog/adres1 i w robots.txt mam Disallow: /*/ to Google może zaindeksować oba jeśli na obydwu występuje przycisk +1?

bceuropa 5 marca 2012, 21:14

Czy chodzi tylko o to, że robot przemierza te witryny pomimo blokady, ale ich nie indeksuje?

Colin 5 marca 2012, 21:50

Nie indeksuje treści, więc przy używaniu robots.txt tylko do wykluczania stron z indeksu, a nie do zmniejszania obciążenia serwera jest to nieistotne.

Skomentuj

Twój adres e-mail nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *