Czym jest plik robots.txt?
Plik ten określa zestaw reguł wyłącznie dla robotów indeksujących, które nie mają wpływu na działanie strony WWW w przeciwieństwie do tych zawartych w pliku .htaccess gdzie również można przykładowo określić możliwość dostępu lub zablokować go dla wybranych robotów. Plik robots.txt ułatwia tę kwestię, eliminując jednocześnie ryzyko zablokowania dostępu użytkownikom odwiedzającym Twoją stronę WWW.
Oczywiście to przy założeniu, że dane roboty indeksujące, które odwiedzają Twoją stronę, odczytują i respektują zawarte w tym pliku reguły.
TUTAJ znajdziesz listę popularnych botów wraz z informacją jakimi nazwami agentów się identyfikują.
Przykładowa składnia
User-agent: [nazwa agenta]
Disallow: [Ścieżka URL, która nie ma być skanowana]
User-agent: [nazwa agenta]
Allow: [Ścieżka URL, która ma być skanowana]
Sitemap: [URL do pliku XML zawierającego mapę strony (Sitemap)]
Gdzie powinieneś zamieścić plik robotx.txt?
Plik ten powinien znaleźć się w głównym katalogu Twojej strony WWW, a więc domyślnie po połączeniu się z serwerem FTP będzie to ścieżka o postaci: nazwadomeny/public_html
Informację w jaki sposób połączyć się z serwerem FTP aby utworzyć lub wgrać przygotowany wcześniej plik na przykładzie klienta „WinSCP”, znajdziesz TUTAJ.
Poniżej przedstawiamy jedną z zalecanych konstrukcji pliku robots.txt z przeznaczeniem dla stron WWW opartych o „WordPress”.
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-admin/
Disallow: /readme.html
Disallow: /refer/
Sitemap: http://www.twojadomena.pl/post-sitemap.xml
Sitemap: http://www.twojadomena.pl/page-sitemap.xml
Jak zapewne zwróciłeś uwagę, na końcu plik zawiera adresy do tzw. map stron, a konkretniej bazując na przykładzie do mapy postów (wpisów) oraz stron dla serwisu WWW opartego o „WordPress” – TUTAJ znajdziesz więcej informacji jakiej wtyczki użyć aby wygenerować mapę strony.