Robot indeksujący Google może napotkać sporo różnych problemów związanych z poprawnym odczytem strony i co za tym idzie, dodaniem jej do indeksu Google i obecnością w wynikach wyszukiwania. Poniżej przedstawiamy trzy z nich.
Spis treści
Meta tag noindex
W tym przypadku winnym może okazać się plik robots.txt.
Robots.txt jest tak naprawdę pierwszym plikiem, który odwiedza Googlebot, gdy zaczyna indeksować Twoją stronę WWW. Dzieje się tak dlatego, że to właśnie tam można znaleźć instrukcje dotyczące tego, które podstrony nie powinny być indeksowane.
W nagłówku każdej podstrony można również umieścić meta tag, który określa, jak powinna być ona traktowana przez plik robots.txt, a więc w efekcie, czy zostanie zaindeksowana:
<meta name="robots" content="noindex">
Obecność noindex oznacza, że Google nie będzie indeksować danej strony. Stosuje się je np. wtedy, gdy witryna została dopiero co utworzona lub jest przebudowywana. W takim przypadku oczywiście treść nie powinna być jeszcze widoczna. Ponieważ znacznik noindex odnosi się do pojedynczej podstrony, nie dziwi fakt, że w przypadku dużej witryny czasami jego usunięcie może zostać przeoczone. W efekcie część treści nie zostanie zaindeksowana przez Google. Upewnij się więc, że każda podstrona jest odpowiednio oznaczona.
Zarządzanie indeksowaniem
Każdego dnia Google indeksuje wiele nowych treści. Jednak zasoby wyszukiwarki są ograniczone, więc Googlebot nie może za każdym razem przeszukać całej witryny. Z tego powodu każdy robot odwiedza witrynę z określonym budżetem, który ogranicza ilość nowej zawartości, jaką może przeanalizować.
Na przykład, jeśli Twoja witryna składa się z 500 stron, a limit Googlebota ogranicza indeksowanie do 10 dziennie, minie ponad miesiąc, zanim robot ponownie przeskanuje cały serwis WWW. Oczywiście nie oznacza to, że w takiej sytuacji trzeba będzie czekać ponad 30 dni na zaindeksowanie przez Google np. nowych artykułów na blogu. Googlebot jest w stanie wykryć nową treść, np. zgłaszając mapę strony w Google Search Console i nadając jej wyższy priorytet.
Orphan pages
Strony osierocone to strony w witrynie, które nie są wewnętrznie powiązane. Użytkownik może do nich dotrzeć, jeśli zna dokładny adres URL. Jednak taka sytuacja stwarza problem, jeśli chodzi o indeksowanie.
Jak już wcześniej wspomniano, kluczowym aspektem indeksowania stron jest indeksowanie (ang. crawling). Nazwa programu, który jest odpowiedzialny za ten proces (crawler), nie jest przypadkowa. Taki bot czołga się (crawluje) od jednej strony do drugiej, wykorzystując linki znajdujące się pomiędzy nimi. Zasadniczo strona osierocona nie może zostać zaindeksowana, ponieważ Googlebot nie ma możliwości dotarcia do niej w celu wykonania indeksowania.
Dlatego tak ważne jest przemyślane linkowanie wewnętrzne. Jeśli zostanie ono wykonane we właściwy sposób, każda podstrona będzie odpowiednio powiązana. O osieroconych podstronach należy pamiętać szczególnie podczas migracji witryny, ponieważ łatwo jest stracić kluczowe linki wewnętrzne.